bs4.FeatureNotFound: Не удалось найти конструктор дерева с запрошенными функциями: lxml. Вам нужно установить библиотеку парсера?

Question

bs4.FeatureNotFound: Не удалось найти конструктор дерева с запрошенными функциями: lxml. Вам нужно установить библиотеку парсера?

...
soup = BeautifulSoup(html, "lxml")
File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__
% ",".join(features))
bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?

Вышеуказанные выводы на моем терминале. Я на Mac OS 10.7.x. У меня есть Python 2.7.1, и я следовал этому руководству, чтобы получить Beautiful Soup и lxml, которые успешно установлены и работают с отдельным тестовым файлом, расположенным здесь. В скрипте Python, который вызывает эту ошибку, я включил эту строку: from pageCrawler import comparePagesИ в файле pageCrawler я включил следующие две строки: from bs4 import BeautifulSoupfrom urllib2 import urlopen

Любая помощь в выяснении, в чем заключается проблема и как ее можно решить, будет высоко ценится.

434

python python-2.7 beautifulsoup lxml

Источник

user3773048 25 июн '14 в 00:12

26 ответов

Другие вопросы по тегам python python-2.7 beautifulsoup lxml

user832005 11 ноя '14 в 03:16 2014-11-11 03:16 · Answer 1 · 2014-11-11 03:16

У меня есть подозрение, что это связано с анализатором, который BS будет использовать для чтения HTML. Они документируют здесь, но если вы похожи на меня (на OSX), вы можете застревать с чем-то, что требует немного работы:

Вы заметите, что на странице документации BS4 выше они указывают, что по умолчанию BS4 будет использовать встроенный анализатор Python HTML. Предполагая, что вы находитесь в OSX, версия Python для Apple является 2.7.2, которая не подходит для форматирования символов. Я столкнулся с этой же проблемой, поэтому я обновил свою версию Python, чтобы обойти ее. Выполнение этого в virtualenv сведет к минимуму нарушение других проектов.

Если это звучит как боль, вы можете переключиться на анализатор LXML:

pip install lxml

А затем попробуйте:

soup = BeautifulSoup(html, "lxml")

В зависимости от вашего сценария, это может быть достаточно хорошо. Я нашел это достаточно раздражающим, чтобы оправдать обновление моей версии Python. Используя virtualenv, вы можете довольно легко перенести ваши пакеты.

user7990434 10 май '17 в 08:55 2017-05-10 08:55 · Answer 2 · 2017-05-10 08:55

Я предпочел встроенный синтаксический анализатор python html, без установки без зависимостей суп = BeautifulSoup(s, "html.parser")

116

Источник

user7990434 10 май '17 в 08:55

user3257992 10 фев '17 в 04:24 2017-02-10 04:24 · Answer 3 · 2017-02-10 04:24

Для основного готового Python с установленным bs4 вы можете обработать ваш XML с

soup = BeautifulSoup(html, "html5lib")

Однако, если вы хотите использовать formatter='xml', вам нужно

pip3 install lxml

soup = BeautifulSoup(html, features="xml")

65

Источник

user3257992 10 фев '17 в 04:24

user1741346 12 фев '20 в 11:22 2020-02-12 11:22 · Answer 4 · 2020-02-12 11:22

Выполните эти три команды, чтобы убедиться, что у вас установлены все соответствующие пакеты:

pip install bs4
pip install html5lib
pip install lxml

Затем, при необходимости, перезапустите Python IDE.

Это должно позаботиться обо всем, что связано с этой проблемой.

60

Источник

user1741346 12 фев '20 в 11:22

user13294227 01 сен '20 в 23:14 2020-09-01 23:14 · Answer 5 · 2020-09-01 23:14

Собственно 3 варианта упомянутых других работают.

1.

soup_object= BeautifulSoup(markup,"html.parser") #Python HTML parser

pip install lxml

soup_object= BeautifulSoup(markup,'lxml') # C dependent parser

pip install html5lib

soup_object= BeautifulSoup(markup,'html5lib') # C dependent parser

49

Источник

user13294227 01 сен '20 в 23:14

user9249723 22 янв '18 в 04:48 2018-01-22 04:48 · Answer 6 · 2018-01-22 04:48

Я использую Python 3.6, и у меня была та же самая оригинальная ошибка в этом посте. После того, как я запустил команду:

python3 -m pip install lxml

это решило мою проблему

19

Источник

user9249723 22 янв '18 в 04:48

user9467300 28 май '20 в 15:00 2020-05-28 15:00 · Answer 7 · 2020-05-28 15:00

Установите парсер LXML в среде Python.

pip install lxml

Ваша проблема будет решена. Вы также можете использовать встроенный пакет Python для того же:

soup = BeautifulSoup(s,  "html.parser")

Примечание. Модуль "HTMLParser" был переименован в "html.parser" в Python3.

18

Источник

user9467300 28 май '20 в 15:00

user6873446 13 фев '18 в 12:28 2018-02-13 12:28 · Answer 8 · 2018-02-13 12:28

Вместо использования lxml используйте html.parser, вы можете использовать этот фрагмент кода:

soup = BeautifulSoup(html, 'html.parser')

13

Источник

user6873446 13 фев '18 в 12:28

user3547000 24 мар '18 в 11:06 2018-03-24 11:06 · Answer 9 · 2018-03-24 11:06

Хотя BeautifulSoup по умолчанию поддерживает анализатор HTML. Если вы хотите использовать любые другие сторонние анализаторы Python, вам необходимо установить этот внешний анализатор, например (lxml).

soup_object= BeautifulSoup(markup,"html.parser") #Python HTML parser

Но если вы не указали парсер в качестве параметра, вы получите предупреждение, что парсер не указан.

soup_object= BeautifulSoup(markup) #Warnning

Чтобы использовать любой другой внешний парсер, вам необходимо установить его, а затем указать его. лайк

pip install lxml

soup_object= BeautifulSoup(markup,'lxml') # C dependent parser

Внешний парсер имеет зависимость от c и python, что может иметь некоторые преимущества и недостатки.

user8565438 29 дек '22 в 20:41 2022-12-29 20:41 · Answer 10 · 2022-12-29 20:41

pip install lxmlзатем сохраняяxmlвsoup = BeautifulSoup(URL, "xml")сделал работу на Mac.

6

Источник

user8565438 29 дек '22 в 20:41

user1115071 17 фев '22 в 03:25 2022-02-17 03:25 · Answer 11 · 2022-02-17 03:25

В моем случае у меня была устаревшая версия lxmlупаковка. Поэтому я просто обновил его, и это решило проблему.

      sudo python3 -m pip install lxml --upgrade

5

Источник

user1115071 17 фев '22 в 03:25

user7656920 04 мар '17 в 06:17 2017-03-04 06:17 · Answer 12 · 2017-03-04 06:17

Я столкнулся с той же проблемой. Я обнаружил, что причина в том, что у меня был слегка устаревший пакет python шесть.

>>> import html5lib
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.7/site-packages/html5lib/__init__.py", line 16, in <module>
    from .html5parser import HTMLParser, parse, parseFragment
  File "/usr/local/lib/python2.7/site-packages/html5lib/html5parser.py", line 2, in <module>
    from six import with_metaclass, viewkeys, PY3
ImportError: cannot import name viewkeys

Обновление шести пакетов решит проблему:

sudo pip install six=1.10.0

user7709509 28 дек '17 в 14:28 2017-12-28 14:28 · Answer 13 · 2017-12-28 14:28

Библиотека парсера не установлена на вашем компьютере или не найдена.

Попробуйте эту команду из cmd:

pip install lxml

3

Источник

user7709509 28 дек '17 в 14:28

user1727392 04 мар '18 в 18:30 2018-03-04 18:30 · Answer 14 · 2018-03-04 18:30

Я решил эту ошибку, обновив свой дистрибутив lxml:

pip install -U lxml

2

Источник

user1727392 04 мар '18 в 18:30

user9581369 03 июл '22 в 04:41 2022-07-03 04:41 · Answer 15 · 2022-07-03 04:41

BS4 по умолчанию ожидает HTML-документ. Поэтому XML-документ анализируется как HTML-документ. Проходитьfeatures="xml"как аргумент в конструкторе. Это решило мою проблему.

2

Источник

user9581369 03 июл '22 в 04:41

user1510153 02 апр '18 в 13:28 2018-04-02 13:28 · Answer 16 · 2018-04-02 13:28

В некоторых ссылках используйте второе вместо первого:

soup_object= BeautifulSoup(markup,'html-parser')
soup_object= BeautifulSoup(markup,'html.parser')

1

Источник

user1510153 02 апр '18 в 13:28

user16533221 30 июл '22 в 23:21 2022-07-30 23:21 · Answer 17 · 2022-07-30 23:21

Вы можете перепроверить, что используете правильный интерпретатор, если у вас установлено несколько версий Python.

Как только я выбрал правильную версию Python, lxml был найден.

1

Источник

user16533221 30 июл '22 в 23:21

user12552274 24 янв '20 в 06:07 2020-01-24 06:07 · Answer 18 · 2020-01-24 06:07

Ошибка возникает из-за используемого парсера. В общем, если у вас есть файл / код HTML, вам необходимо использоватьhtml5lib(документацию можно найти здесь) и, если у вас есть файл / данные XML, вам необходимо использоватьlxml(документацию можно найти здесь). Вы можете использоватьlxmlдля файла / кода HTML также, но иногда он дает ошибку, как указано выше. Итак, лучше выбирать пакет с умом, исходя из типа данных / файла. Вы также можете использоватьhtml_parserкоторый является встроенным модулем. Но это тоже иногда не работает.

Для получения дополнительной информации о том, когда использовать какой пакет, вы можете увидеть подробности здесь

user3158078 30 мар '20 в 23:01 2020-03-30 23:01 · Answer 19 · 2020-03-30 23:01

Пустой параметр приведет к предупреждению о наилучших возможностях.
soup = BeautifulSoup(HTML)

--------------- / UserWarning: синтаксический анализатор не был указан явно, поэтому я использую лучший доступный анализатор HTML для этой системы ("html5lib"). Обычно это не проблема, но если вы запустите этот код в другой системе или в другой виртуальной среде, он может использовать другой синтаксический анализатор и вести себя по-другому.--------------- ------- /

python - версия Python 3.7.7

PyCharm 19.3.4 CE

user3933587 03 ноя '23 в 09:27 2023-11-03 09:27 · Answer 20 · 2023-11-03 09:27

Важно для пользователей Jupyternotebook: если вы решите использовать парсер lxml, обязательно перезапустите ядро jupyternotebook после его установки с помощьюpip install lxml. В противном случае парсер невозможно найти, поскольку он еще не инициализирован должным образом. Перезапустить ядро можно через графический интерфейс jupyternotebook web/pycharm/vscode.

user17176482 06 мар '22 в 14:00 2022-03-06 14:00 · Answer 21 · 2022-03-06 14:00

Я исправил с изменениями ниже

До изменений

      soup = BeautifulSoup(r.content, 'html5lib' )
print (soup.prettify())

После изменения

      soup = BeautifulSoup(r.content, features='html')
print(soup.prettify())

мой код работает правильно

1

Источник

user17176482 06 мар '22 в 14:00

user7587831 17 янв '22 в 20:42 2022-01-17 20:42 · Answer 22 · 2022-01-17 20:42

Я использую Python 3.8 в pycharm. Я предполагаю, что вы не установили "lxml" до того, как начали работать. Вот что я сделал:

Перейдите в Файл -> Настройки
Выберите «Интерпретатор Python» в левой строке меню настроек, выберите «Интерпретатор Python».
Щелкните значок «+» над списком пакетов.
Найдите «lxml».
Нажмите «Установить пакет» в левом нижнем углу окна «Доступный пакет».

user12097191 09 ноя '21 в 19:47 2021-11-09 19:47 · Answer 23 · 2021-11-09 19:47

Мое решение состояло в том, чтобы удалить lxmlиз conda и переустановив его с помощью pip.

1

Источник

user12097191 09 ноя '21 в 19:47

user8308861 17 ноя '18 в 01:36 2018-11-17 01:36 · Answer 24 · 2018-11-17 01:36

conda install lxml

работал для меня из виртуальной среды.
Это было на Windows 10.

0

Источник

user8308861 17 ноя '18 в 01:36

user10402126 21 ноя '18 в 09:44 2018-11-21 09:44 · Answer 25 · 2018-11-21 09:44

python -m pip install lxml (в cmd)
Импортировать lxml (в вашем коде / проекте)

0

Источник

user10402126 21 ноя '18 в 09:44

user13181871 27 фев '22 в 17:07 2022-02-27 17:07 · Answer 26 · 2022-02-27 17:07

Этот метод работал для меня. Я предпочитаю упомянуть, что я пробовал это в виртуальной среде. Первый:

      pip install --upgrade bs4

Во-вторых, я использовал:

      html.parser

вместо

      html5lib

0

Источник

user13181871 27 фев '22 в 17:07