Лучший способ сканировать файловую систему и индексировать

Я работаю над проектом, в котором мне нужно просканировать более 10 ТБ данных и проиндексировать их. Мне нужно реализовать пошаговое сканирование, которое занимает меньше времени.

Мой вопрос: какой инструмент лучше всего подходит для этого всем крупным организациям наряду с Java?

Я пробовал это, используя Solr и Manifold CF, но у Manifold очень мало документации в Интернете.

1 ответ

Для любых операций сканирования, использующих Java, лучше всего использовать JSOUP с открытым исходным кодом и API-интерфейс SolrJ, четкую и аккуратную легкую нестабильную документацию.

Jsoup - это библиотека Java для работы с реальным HTML. Он предоставляет очень удобный API для извлечения и манипулирования данными, используя лучшие из DOM, CSS и jquery-подобные методы.

SolrJ - это API, который облегчает Java-приложениям общение с Solr. SolrJ скрывает многие детали подключения к Solr и позволяет вашему приложению взаимодействовать с Solr с помощью простых высокоуровневых методов.

для дополнительной опции вы также можете попробовать Elasticsearch с API Java

В итоге мы использовали Solr J (JAVA) и Apache Manifold CF. Хотя документации для Manifold CF практически не было, мы подписались на рассылку новостей и задавали вопросы разработчикам, и они быстро отвечали. Однако я бы не рекомендовал никому использовать эту настройку, поскольку Apache Manifold CF устарел и плохо построен. Так что лучше искать альтернативы. Надеюсь, это кому-то помогло.

Другие вопросы по тегам