Плагин прикрепления Elasticsearch против собственной реализации Tika

Я хочу использовать инструментарий Tika для индексирования содержимого файлов документов (pdf, docx...) и изображений (через плагин tesseract).

Я попробовал подключаемый модуль эластичного вложения ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html), он работает довольно хорошо, но без встроенной функции распознавания текста. И я должен отправить base64 моего файла, поэтому высокое использование памяти + эластичный индекс в поле "data" (base64), которое бесполезно.

Я подумываю об использовании непосредственно набора инструментов Tika, а затем индексировать содержимое в ElasticSearch.

Так что мне интересно, лучше это или нет?

2 ответа

Мы создали систему для обработки файлов (Сканирование -> OCR -> Индекс -> Поиск). Это называется Амбар. Мы создали его с идеей создать хорошую и надежную замену Ingest Attachment.

В качестве поисковой системы мы используем ElasticSearch, в качестве контекстного экстрактора: Tika + Tesseract + ImageMagick + Пользовательские экстракторы для PDF.

Мы сделали это, чтобы предоставить простую, но мощную альтернативу собственной реализации Tika + ES.

Проверьте Github, чтобы получить более подробную информацию.

На момент написания, практически нет документации о включении OCR через Tesseract в elasticsearch-mapper-attachments плагин.

Все указывает на то, что вы выполняете задачу OCR вне Elasticsearch, а затем индексируете контент отдельно.

Ссылка: https://github.com/elastic/elasticsearch-mapper-attachments/issues/10

Другие вопросы по тегам