Поиск документов в Lucene/Solr, Whoosh, Sphinx, Xapian
Я сравниваю Lucene/Solr, Whoosh, Sphinx и Xapian для поиска документов в DOC, DOCX, HTML и PDF. Только Solr документирован, чтобы иметь анализатор документов (Tika), который непосредственно индексирует документы. Так что, похоже, явный победитель.
Но чтобы выровнять игровое поле, мне нравится рассматривать альтернативы. Есть ли у других прямая индексация документов (которые я, возможно, пропустил)? Если нет, то могут ли они быть легко реализованы? Или Solr - огромный выбор?
1 ответ
На Sphinx вы можете конвертировать файл с помощью PHP-скрипта с помощью опции xmlpipe_command. Поскольку в PHP есть Tika-оболочка, написание сценария и самой установки не составляет труда.