Apache ManifoldCF TIKA

Я пытаюсь извлечь текстовое содержимое PDF-файла с помощью интеграции Apache Tika в Apache ManifoldCF, чтобы загрузить некоторые PDF-файлы на моем ноутбуке на сервере Elasticsearch.

После правильного создания Tika Transformer и настройки его внутри моей работы я вижу, что результирующее поле "_content" в ES заполнено двоичной кодировкой файла, а не текстом.

Я также видел это: Извлечение содержимого файла с ManifoldCF, но до сих пор не было дано никакого ответа (с 2015 года!).

Кто-нибудь может мне помочь?

Спасибо!

1 ответ

В выходном соединителе для упругого поиска какое имя поля вы указали для поля содержимого?

Пожалуйста, укажите название поля, а также максимальный размер документа.

Другие вопросы по тегам