Описание тега webharvest

Web-Harvest - это инструмент извлечения веб-данных с открытым исходным кодом, написанный на Java.

Web-Harvest - это инструмент извлечения веб-данных с открытым исходным кодом, написанный на Java.

Он предлагает способ собирать желаемые веб-страницы и извлекать из них полезные данные. Для этого он использует хорошо зарекомендовавшие себя методы и технологии для работы с текстом / XML, такие как XSLT, XQuery и регулярные выражения. Web-Harvest в основном фокусируется на веб-сайтах на основе HTML/XML, которые по-прежнему составляют подавляющую часть веб-контента. С другой стороны, его можно легко дополнить пользовательскими библиотеками Java, чтобы расширить возможности извлечения.