Прочитать заголовок в HTML с помощью скрипта Python

Question

Прочитать заголовок в HTML с помощью скрипта Python

У меня небольшая проблема, я хочу прочитать заголовок в HTML-документе, это работает до сих пор, что я получаю результат строки. Я использую библиотеку bs4 BeautifulSoup и urllib.request.

На первом изображении видно, что в HTML-коде есть пробел, и этот пробел виден даже в командной строке, но мне нужен только заголовок. Итак, как я могу удалить коды HTML в выводе?

Изменить: вот код Python, который вы ищете, и который я использовал

import urllib.request
from bs4 import BeautifulSoup
import codecs

htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning")

htmltext = htmlfile.read()

print(htmltext)


soup = BeautifulSoup(htmltext, 'html.parser')

print(soup)

f = codecs.open("freebook.html", "w", "utf-8")
f.write(soup.get())

f.close()

Я надеюсь, что этот код поможет вам

-2

python html beautifulsoup urllib bs4

Источник

user5497144 09 окт '16 в 13:19

2 ответа

Другие вопросы по тегам python html beautifulsoup urllib bs4

user2764634 09 окт '16 в 13:31 2016-10-09 13:31 · Answer 1 · 2016-10-09 13:31

Без примера кода трудно дать вам точное решение, но вы можете использовать h2.get_text(strip=true) где h2 переменная, указывающая на h2 элемент вы хотите распечатать.

Это документация по get_text() - https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Поделитесь своим кодом и html если вам нужна дополнительная помощь

user6404790 09 окт '16 в 13:34 2016-10-09 13:34 · Answer 2 · 2016-10-09 13:34

Насколько я понимаю, у вас есть текстовое содержимое тега h2 в переменной, и вы хотите удалить пробелы. Так что вы можете использовать strip=true в BS4 или title = title.strip(),

0

Источник

user6404790 09 окт '16 в 13:34