Лучший способ сканировать файловую систему и индексировать

Question

Лучший способ сканировать файловую систему и индексировать

Я работаю над проектом, в котором мне нужно просканировать более 10 ТБ данных и проиндексировать их. Мне нужно реализовать пошаговое сканирование, которое занимает меньше времени.

Мой вопрос: какой инструмент лучше всего подходит для этого всем крупным организациям наряду с Java?

Я пробовал это, используя Solr и Manifold CF, но у Manifold очень мало документации в Интернете.

0

java solr manifoldcf

Источник

user7841291 01 дек '17 в 09:40

1 ответ

Другие вопросы по тегам java solr manifoldcf

user7701913 01 дек '17 в 09:53 2017-12-01 09:53 · Answer 1 · 2017-12-01 09:53

Для любых операций сканирования, использующих Java, лучше всего использовать JSOUP с открытым исходным кодом и API-интерфейс SolrJ, четкую и аккуратную легкую нестабильную документацию.

Jsoup - это библиотека Java для работы с реальным HTML. Он предоставляет очень удобный API для извлечения и манипулирования данными, используя лучшие из DOM, CSS и jquery-подобные методы.

SolrJ - это API, который облегчает Java-приложениям общение с Solr. SolrJ скрывает многие детали подключения к Solr и позволяет вашему приложению взаимодействовать с Solr с помощью простых высокоуровневых методов.

для дополнительной опции вы также можете попробовать Elasticsearch с API Java

user7841291 11 июл '20 в 00:01 2020-07-11 00:01 · Answer 2 · 2020-07-11 00:01

В итоге мы использовали Solr J (JAVA) и Apache Manifold CF. Хотя документации для Manifold CF практически не было, мы подписались на рассылку новостей и задавали вопросы разработчикам, и они быстро отвечали. Однако я бы не рекомендовал никому использовать эту настройку, поскольку Apache Manifold CF устарел и плохо построен. Так что лучше искать альтернативы. Надеюсь, это кому-то помогло.