Прочитать заголовок в HTML с помощью скрипта Python

У меня небольшая проблема, я хочу прочитать заголовок в HTML-документе, это работает до сих пор, что я получаю результат строки. Я использую библиотеку bs4 BeautifulSoup и urllib.request.

HTML-код

На первом изображении видно, что в HTML-коде есть пробел, и этот пробел виден даже в командной строке, но мне нужен только заголовок. Итак, как я могу удалить коды HTML в выводе?

Вывод командной строки

Изменить: вот код Python, который вы ищете, и который я использовал

import urllib.request
from bs4 import BeautifulSoup
import codecs

htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning")

htmltext = htmlfile.read()

print(htmltext)


soup = BeautifulSoup(htmltext, 'html.parser')

print(soup)

f = codecs.open("freebook.html", "w", "utf-8")
f.write(soup.get())

f.close()

Я надеюсь, что этот код поможет вам

2 ответа

Без примера кода трудно дать вам точное решение, но вы можете использовать h2.get_text(strip=true) где h2 переменная, указывающая на h2 элемент вы хотите распечатать.

Это документация по get_text() - https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Поделитесь своим кодом и html если вам нужна дополнительная помощь

Насколько я понимаю, у вас есть текстовое содержимое тега h2 в переменной, и вы хотите удалить пробелы. Так что вы можете использовать strip=true в BS4 или title = title.strip(),

Другие вопросы по тегам