Какой HTML-парсер я должен использовать?

Question

Какой HTML-парсер я должен использовать?

Я работаю над продуктом, где мне нужно разобрать HTML-документ. Я искал Иерихон, TagSoup, Jsoup и Crawl4J. Какой синтаксический анализатор я должен использовать для анализа HTML, поскольку мне нужно запустить этот процесс в многопоточной среде с использованием кварца?

В то время, когда 10 потоков работают в памяти, мне нужен API, который потребляет меньше памяти. В иерихоне я где-то читал, что это текстовый API поиска и потребляет меньше памяти. Я прав? Или я должен идти за другим и почему?

2

java crawler4j jericho-html-parser tag-soup

Источник

user504459 11 сен '12 в 11:36

2 ответа

Решение

Я использую JSoup, и я очень впечатлен. Он быстро разбирается при разборе, и его сопоставление с шаблоном в стиле CSS значительно проще в обслуживании, чем в XPath.

Сначала я попробовал парсер Validator.nu, но мне его очень не хватало. Документация очень тонкая, и я не смог заставить ее правильно выполнять XPath, который отлично работал в Chrome.

Кроме того, проверьте этот вопрос: какой HTML Parser является лучшим?

0

Источник

user491553 03 янв '14 в 18:28

Другие вопросы по тегам java crawler4j jericho-html-parser tag-soup

user762913 11 сен '12 в 11:41 2012-09-11 11:41 · Accepted Answer · 2012-09-11 11:41

Проверьте их и проверьте их след памяти. Трудно делать прогнозы по профилям памяти, не зная и не проверяя HTML, который вы собираетесь анализировать.

FFIW, я использовал Jsoup в нескольких различных системах, и я считаю, что он работает очень хорошо. Я никогда не замечал никаких проблем с памятью.