Apache ManifoldCF TIKA

Question

Apache ManifoldCF TIKA

Я пытаюсь извлечь текстовое содержимое PDF-файла с помощью интеграции Apache Tika в Apache ManifoldCF, чтобы загрузить некоторые PDF-файлы на моем ноутбуке на сервере Elasticsearch.

После правильного создания Tika Transformer и настройки его внутри моей работы я вижу, что результирующее поле "_content" в ES заполнено двоичной кодировкой файла, а не текстом.

Я также видел это: Извлечение содержимого файла с ManifoldCF, но до сих пор не было дано никакого ответа (с 2015 года!).

Кто-нибудь может мне помочь?

Спасибо!

1

elasticsearch pdf apache-tika manifoldcf

Источник

user6803890 16 ноя '17 в 11:08

1 ответ

Другие вопросы по тегам elasticsearch pdf apache-tika manifoldcf

user7841291 22 июл '18 в 20:23 2018-07-22 20:23 · Answer 1 · 2018-07-22 20:23

В выходном соединителе для упругого поиска какое имя поля вы указали для поля содержимого?

Пожалуйста, укажите название поля, а также максимальный размер документа.

0

Источник

user7841291 22 июл '18 в 20:23