Использование Ruby-on-Rails, Sphinx или UltraSphinx и источника HTML (не базы данных)

Документация заявляет для sphinx-0.9.9-rc2:

Индексируемые данные обычно могут поступать из самых разных источников: базы данных SQL, простые текстовые файлы, файлы HTML, почтовые ящики и т. Д.

Тем не менее, я не могу найти никакой документации по настройке источника помимо SQL. Файл конфигурации, похоже, не указывает на то, что источником может быть что угодно, кроме базы данных. У кого-нибудь есть полезные ссылки для настройки сфинкса с источником HTML?

1 ответ

Вы ищете функцию xmlpipe (теперь она называется xmlpipe2) в Sphinx? Я опробовал его для файлов XML, и он работает так же, как и для SQL.

Я не пробовал Sphinx с простыми HTML-файлами, поэтому я предполагаю, что вам нужно будет проанализировать ваш HTML-файл и создать XML-файлы с атрибутами / полями, которые вы хотите проиндексировать, и передать их в Sphinx с помощью xmlpipe.

Вы можете увидеть здесь и здесь больше.

НТН

Другие вопросы по тегам