Индексирование документов Word и PDF с помощью Sphinx
У меня есть веб-сайт, на котором пользователи загружают документы в формате.doc и.pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексировать эти форматы файлов с помощью Sphinx?
3 ответа
Решение
К сожалению, Sphinx не может индексировать эти типы файлов напрямую. Вам нужно будет либо импортировать текстовое содержимое в базу данных, либо в формат XML, понятный Sphinx.
Для этого я использую метод pdf2text и antiword. Я использую оба из них, чтобы сбросить содержимое PDF-файлов и документов Word в базу данных. Оттуда легко ползти со Сфинксом.
Кто-нибудь использовал Tika для индексации других типов документов, так же как и плагин SOLR? Апач Тика
Некоторые ссылки: