python beautifulsoup: lxml html.parser

Question

python beautifulsoup: lxml html.parser

Я должен использовать BeautifulSoup, но я не знаю, какой парсер я должен взять. Я колеблюсь между lxml и html.parser, или почему не оба. Как узнать, соответствует ли веб-страница lxml? Как узнать, является ли веб-страница совместимой с html-парсером? Большое спасибо

2

python beautifulsoup lxml html-parser

Источник

user5320483 20 июн '16 в 23:34

2 ответа

Решение

Я усвоил это на собственном горьком опыте. Это убивает меня. Я просто не мог понять, почему тег, который я хотел, включал в себя что-то, чего не было в этом теге. Выяснилось, что синтаксический анализатор html некорректно работал с этим сайтом. После нескольких часов головной боли я вдруг попытался переключиться на парсер lxml, и о чудо... Ненужные вещи исчезли, как и должно было быть!

0

Источник

user11893364 12 июл '22 в 08:19

Другие вопросы по тегам python beautifulsoup lxml html-parser

user771848 20 июн '16 в 23:36 2016-06-20 23:36 · Accepted Answer · 2016-06-20 23:36

Там нет серебряной пули. Различные HTML-парсеры ведут себя по-разному, и вы должны выбрать тот, который подходит для вашей конкретной страницы. Работает в этом случае в основном означает, что вы можете получить нужные данные.

lxml парсер вообще быстрее, html5lib наиболее мягкая - такая разница будет уместна, если у вас есть разбитый или плохо сформированный HTML для анализа. html.parser встроен и может помочь избежать дополнительных зависимостей, если это проблема. Вот соответствующая таблица, которая подчеркивает различия.