Поиск документов в Lucene/Solr, Whoosh, Sphinx, Xapian

Я сравниваю Lucene/Solr, Whoosh, Sphinx и Xapian для поиска документов в DOC, DOCX, HTML и PDF. Только Solr документирован, чтобы иметь анализатор документов (Tika), который непосредственно индексирует документы. Так что, похоже, явный победитель.

Но чтобы выровнять игровое поле, мне нравится рассматривать альтернативы. Есть ли у других прямая индексация документов (которые я, возможно, пропустил)? Если нет, то могут ли они быть легко реализованы? Или Solr - огромный выбор?

1 ответ

На Sphinx вы можете конвертировать файл с помощью PHP-скрипта с помощью опции xmlpipe_command. Поскольку в PHP есть Tika-оболочка, написание сценария и самой установки не составляет труда.

Другие вопросы по тегам