Какой HTML-парсер я должен использовать?
Я работаю над продуктом, где мне нужно разобрать HTML-документ. Я искал Иерихон, TagSoup, Jsoup и Crawl4J. Какой синтаксический анализатор я должен использовать для анализа HTML, поскольку мне нужно запустить этот процесс в многопоточной среде с использованием кварца?
В то время, когда 10 потоков работают в памяти, мне нужен API, который потребляет меньше памяти. В иерихоне я где-то читал, что это текстовый API поиска и потребляет меньше памяти. Я прав? Или я должен идти за другим и почему?
2 ответа
Проверьте их и проверьте их след памяти. Трудно делать прогнозы по профилям памяти, не зная и не проверяя HTML, который вы собираетесь анализировать.
FFIW, я использовал Jsoup в нескольких различных системах, и я считаю, что он работает очень хорошо. Я никогда не замечал никаких проблем с памятью.
Я использую JSoup, и я очень впечатлен. Он быстро разбирается при разборе, и его сопоставление с шаблоном в стиле CSS значительно проще в обслуживании, чем в XPath.
Сначала я попробовал парсер Validator.nu, но мне его очень не хватало. Документация очень тонкая, и я не смог заставить ее правильно выполнять XPath, который отлично работал в Chrome.
Кроме того, проверьте этот вопрос: какой HTML Parser является лучшим?