Прочитать заголовок в HTML с помощью скрипта Python
У меня небольшая проблема, я хочу прочитать заголовок в HTML-документе, это работает до сих пор, что я получаю результат строки. Я использую библиотеку bs4 BeautifulSoup и urllib.request.
На первом изображении видно, что в HTML-коде есть пробел, и этот пробел виден даже в командной строке, но мне нужен только заголовок. Итак, как я могу удалить коды HTML в выводе?
Изменить: вот код Python, который вы ищете, и который я использовал
import urllib.request
from bs4 import BeautifulSoup
import codecs
htmlfile = urllib.request.urlopen("https://www.packtpub.com/packt/offers/free-learning")
htmltext = htmlfile.read()
print(htmltext)
soup = BeautifulSoup(htmltext, 'html.parser')
print(soup)
f = codecs.open("freebook.html", "w", "utf-8")
f.write(soup.get())
f.close()
Я надеюсь, что этот код поможет вам
2 ответа
Без примера кода трудно дать вам точное решение, но вы можете использовать h2.get_text(strip=true)
где h2
переменная, указывающая на h2
элемент вы хотите распечатать.
Это документация по get_text()
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Поделитесь своим кодом и html
если вам нужна дополнительная помощь
Насколько я понимаю, у вас есть текстовое содержимое тега h2 в переменной, и вы хотите удалить пробелы. Так что вы можете использовать strip=true
в BS4 или title = title.strip()
,