Плагин прикрепления Elasticsearch против собственной реализации Tika
Я хочу использовать инструментарий Tika для индексирования содержимого файлов документов (pdf, docx...) и изображений (через плагин tesseract).
Я попробовал подключаемый модуль эластичного вложения ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html), он работает довольно хорошо, но без встроенной функции распознавания текста. И я должен отправить base64 моего файла, поэтому высокое использование памяти + эластичный индекс в поле "data" (base64), которое бесполезно.
Я подумываю об использовании непосредственно набора инструментов Tika, а затем индексировать содержимое в ElasticSearch.
Так что мне интересно, лучше это или нет?
2 ответа
Мы создали систему для обработки файлов (Сканирование -> OCR -> Индекс -> Поиск). Это называется Амбар. Мы создали его с идеей создать хорошую и надежную замену Ingest Attachment.
В качестве поисковой системы мы используем ElasticSearch, в качестве контекстного экстрактора: Tika + Tesseract + ImageMagick + Пользовательские экстракторы для PDF.
Мы сделали это, чтобы предоставить простую, но мощную альтернативу собственной реализации Tika + ES.
Проверьте Github, чтобы получить более подробную информацию.
На момент написания, практически нет документации о включении OCR через Tesseract в elasticsearch-mapper-attachments
плагин.
Все указывает на то, что вы выполняете задачу OCR вне Elasticsearch, а затем индексируете контент отдельно.
Ссылка: https://github.com/elastic/elasticsearch-mapper-attachments/issues/10