Использование Solr CELL ExtractingRequestHandler для индексации / извлечения файлов из форматов пакетов

Можете ли вы использовать ExtractingRequestHandler и Tika с любым из форматов сжатых файлов (zip, tar, gz и т. Д.), Чтобы извлечь контент для индексации?

Я посылаю solr файл archived.tar, используя curl. curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true" -H 'Тип содержимого: приложение / поток октетов' --data-binary "@/home/archived.tar"Когда я запрашиваю документ, я получаю то, что имена файлов внутри архива индексируются как"body_texts", но содержимое этих файлов не извлекается и не включается. Это не то поведение, которого я ожидал. Ссылка: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika. Когда я отправляю 1 из фактических документов внутри архива с помощью той же команды curl, извлеченный контент сохраняется в поле "body_texts". Я пропустил шаг для сжатых файлов?

Я добавил все зависимости для извлечения, как указано в mat на http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell и могу успешно извлекать данные из документов MS Word, PDF, HTML.

Я использую следующие версии библиотеки. Solr 1.40, Solr Cell 1.4.1, с ядром Tika 0.4

Учитывая все, что я прочитал, эта версия Tika должна поддерживать извлечение данных из всех файлов в сжатом файле. Любая помощь или предложения будут оценены.

1 ответ

Решение

Краткий ответ: Solr Cell 1.4.1 и Tika Core 0.6.

Длинный ответ: после многих головных болей я смог заставить это работать. Я отвечу на это как для людей, использующих solr напрямую, так и для людей, использующих solr с пятном библиотеки Ruby (что было моей проблемой).

Вот что я сделал: я использовал этот плагин https://github.com/tomasc/sunspot_cell для расширения пятна и придания ему функции прикрепления. (Игнорируйте этот шаг, если вы не используете ruby ​​/ sunspot)

v1.4.1 работает для отдельных файлов, но не для сжатых файлов, поэтому мне пришлось немного разобраться. Я загрузил кодовую базу v1.4.1 с http://lucene.apache.org/solr/ и взял dist / apache-solr-cell-1.4.1.jar, затем мне пришлось выгрузить библиотеки Tika из ветки 1.5 в http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

Вы можете скачать каждый по отдельности, или вы можете использовать SVN, чтобы оформить ветку по

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Или просто извлеките папку библиотеки:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
Другие вопросы по тегам