Плагин прикрепления Elasticsearch против собственной реализации Tika

Question

Плагин прикрепления Elasticsearch против собственной реализации Tika

Я хочу использовать инструментарий Tika для индексирования содержимого файлов документов (pdf, docx...) и изображений (через плагин tesseract).

Я попробовал подключаемый модуль эластичного вложения ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html), он работает довольно хорошо, но без встроенной функции распознавания текста. И я должен отправить base64 моего файла, поэтому высокое использование памяти + эластичный индекс в поле "data" (base64), которое бесполезно.

Я подумываю об использовании непосредственно набора инструментов Tika, а затем индексировать содержимое в ElasticSearch.

Так что мне интересно, лучше это или нет?

3

elasticsearch apache-tika

Источник

user7123134 06 ноя '16 в 17:53

2 ответа

Другие вопросы по тегам elasticsearch apache-tika

user1328460 04 апр '17 в 14:05 2017-04-04 14:05 · Answer 1 · 2017-04-04 14:05

Мы создали систему для обработки файлов (Сканирование -> OCR -> Индекс -> Поиск). Это называется Амбар. Мы создали его с идеей создать хорошую и надежную замену Ingest Attachment.

В качестве поисковой системы мы используем ElasticSearch, в качестве контекстного экстрактора: Tika + Tesseract + ImageMagick + Пользовательские экстракторы для PDF.

Мы сделали это, чтобы предоставить простую, но мощную альтернативу собственной реализации Tika + ES.

Проверьте Github, чтобы получить более подробную информацию.

user6243024 06 ноя '16 в 20:59 2016-11-06 20:59 · Answer 2 · 2016-11-06 20:59

На момент написания, практически нет документации о включении OCR через Tesseract в elasticsearch-mapper-attachments плагин.

Все указывает на то, что вы выполняете задачу OCR вне Elasticsearch, а затем индексируете контент отдельно.

Ссылка: https://github.com/elastic/elasticsearch-mapper-attachments/issues/10

1

Источник

user6243024 06 ноя '16 в 20:59