Индексирование документов Word и PDF с помощью Sphinx

Question

Индексирование документов Word и PDF с помощью Sphinx

У меня есть веб-сайт, на котором пользователи загружают документы в формате.doc и.pdf. Я использую Sphinx для полнотекстового поиска в моей базе данных SQL (MySQL). Каков наилучший способ индексировать эти форматы файлов с помощью Sphinx?

10

pdf ms-word

Источник

user36609 30 июл '09 в 17:11

3 ответа

Решение

Для этого я использую метод pdf2text и antiword. Я использую оба из них, чтобы сбросить содержимое PDF-файлов и документов Word в базу данных. Оттуда легко ползти со Сфинксом.

9

Источник

user64911 02 апр '11 в 22:01

Кто-нибудь использовал Tika для индексации других типов документов, так же как и плагин SOLR? Апач Тика

Некоторые ссылки:

1

Источник

user2683024 17 окт '13 в 19:37

Другие вопросы по тегам pdf ms-word

user54500 30 июл '09 в 21:16 2009-07-30 21:16 · Accepted Answer · 2009-07-30 21:16

К сожалению, Sphinx не может индексировать эти типы файлов напрямую. Вам нужно будет либо импортировать текстовое содержимое в базу данных, либо в формат XML, понятный Sphinx.

6

Источник

user54500 30 июл '09 в 21:16