Индексирование документов Word и PDF с помощью Sphinx

У меня есть веб-сайт, на котором пользователи загружают документы в формате.doc и.pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексировать эти форматы файлов с помощью Sphinx?

3 ответа

Решение

К сожалению, Sphinx не может индексировать эти типы файлов напрямую. Вам нужно будет либо импортировать текстовое содержимое в базу данных, либо в формат XML, понятный Sphinx.

Для этого я использую метод pdf2text и antiword. Я использую оба из них, чтобы сбросить содержимое PDF-файлов и документов Word в базу данных. Оттуда легко ползти со Сфинксом.

Кто-нибудь использовал Tika для индексации других типов документов, так же как и плагин SOLR? Апач Тика

Некоторые ссылки:

  1. PDF2TEXT находится в poppler или poppler-utils в Linux
  2. ANTIWORD - кажется, для старого.doc, а не новее.docx
Другие вопросы по тегам