Как мне индексировать документы в SOLR?

Я запускаю Solr 1.4 на Ubuntu 10.04 (установленной через apt-get solr-tomcat), и кажется, что он работает нормально. У меня возникли трудности с поиском какой-либо связной информации о том, как индексировать документы. Я новичок в SOLR, так что терпите меня! У меня есть папка (/mnt/folder), которая представляет собой смонтированный общий ресурс Windows, который содержит файлы Word и PDF, которые я хотел бы проиндексировать. Какой самый простой способ получить SOLR для индексирования всей папки?

Документация для SOLR довольно скудная, поэтому невозможно найти какие-либо достойные учебные пособия по работе с ним, поэтому любая помощь очень ценится!

S

3 ответа

Взгляните на Solr wiki, это довольно тщательная документация.

В частности, см. http://wiki.apache.org/solr/ExtractingRequestHandler, который позволяет индексировать двоичные файлы, такие как документы Word и PDF. Вот введение в тему.

Если вам не хватает вики, есть также отличная книга о Solr.

Я обнаружил те же проблемы с основной документацией, но наткнулся на это очень полезное справочное руководство от LucidImagination, которое помогло прояснить многое о SOLR:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

Обработка многофункциональных документов с помощью Solr: http://wiki.apache.org/solr/UpdateRichDocuments

Другие вопросы по тегам