Как мне индексировать документы в SOLR?
Я запускаю Solr 1.4 на Ubuntu 10.04 (установленной через apt-get solr-tomcat), и кажется, что он работает нормально. У меня возникли трудности с поиском какой-либо связной информации о том, как индексировать документы. Я новичок в SOLR, так что терпите меня! У меня есть папка (/mnt/folder), которая представляет собой смонтированный общий ресурс Windows, который содержит файлы Word и PDF, которые я хотел бы проиндексировать. Какой самый простой способ получить SOLR для индексирования всей папки?
Документация для SOLR довольно скудная, поэтому невозможно найти какие-либо достойные учебные пособия по работе с ним, поэтому любая помощь очень ценится!
S
3 ответа
Взгляните на Solr wiki, это довольно тщательная документация.
В частности, см. http://wiki.apache.org/solr/ExtractingRequestHandler, который позволяет индексировать двоичные файлы, такие как документы Word и PDF. Вот введение в тему.
Если вам не хватает вики, есть также отличная книга о Solr.
Я обнаружил те же проблемы с основной документацией, но наткнулся на это очень полезное справочное руководство от LucidImagination, которое помогло прояснить многое о SOLR:
http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide
Обработка многофункциональных документов с помощью Solr: http://wiki.apache.org/solr/UpdateRichDocuments