Ошибка имени 'html' не определена с Beautifulsoup4

Question

Ошибка имени 'html' не определена с Beautifulsoup4

Мой код на Python 3.4.4:

import urllib.request
from bs4 import BeautifulSoup
from html.parser import HTMLParser

urls = 'file:///C:/Users/tarunuday/Documents/scrapdata/mech.html'
htmlfile = urllib.request.urlopen(urls)
soup = BeautifulSoup(htmlfile,html.parser)

Я получаю эту ошибку

Traceback (most recent call last):
    File "C:\Python34\saved\scrapping\scrapping2.py", line 7, in <module>
    soup = BeautifulSoup(htmlfile,html.parser)
    NameError: name 'html' is not defined

Теперь я понимаю, что HTMLParser - это py2.x, а html.parser - это py3.x, но как мне заставить это работать? На сайте bs4 написано If you get the ImportError “No module named html.parser”, your problem is that you’re running the Python 3 version of the code under Python 2., но я использую 3.x и получаю NameError, а не ImportError

3

python html python-3.x beautifulsoup

Источник

user1526036 20 мар '16 в 12:39

1 ответ

Другие вопросы по тегам python html python-3.x beautifulsoup

user104349 20 мар '16 в 12:41 2016-03-20 12:41 · Answer 1 · 2016-03-20 12:41

Ошибка правильная, вы не определили html в любом месте. Документация, на которую вы ссылаетесь, показывает, что вы должны проходить "html.parser" в виде строки; Похоже, вам вообще не нужно импортировать HTMLParser.

5

Источник

user104349 20 мар '16 в 12:41

user6797330 27 ноя '19 в 21:30 2019-11-27 21:30 · Answer 2 · 2019-11-27 21:30

В вашем коде html.parser - это строка, и если вы используете python 3 или выше, для нее нужны кавычки.

1

Источник

user6797330 27 ноя '19 в 21:30