Извлечь содержимое файла с ManifoldCF
Я пытаюсь использовать ManifoldCF с коннектором файловой системы.
Это работает как очарование: с реализованным экстрактором контента Tika я получил все ожидаемые метаданные из своих документов.
Но... Как настроить ManifoldCF для получения эквивалента этой команды: java -jar tika-app-1.9.jar --text Я имею в виду, я хочу получить СОДЕРЖАНИЕ файла и вставить его в мои выходные соединения, Как это возможно?
1 ответ
Вы должны настроить трансформатор в трубопроводе. Перед настройкой выходного разъема добавьте трансформатор Tika. С помощью этой настройки вы сможете извлекать ваши метаданные на основе типа вашего документа, в конечном итоге вы должны видеть, что контент и метаданные поступают в выходной соединитель (например, solr)