Что является хорошей альтернативой для поиска Lucene?

У меня есть тысячи резюме, и я хочу найти резюме, в которых в качестве фона использовалась "информатика".

Итак, я погуглил и узнал, что Lucene выполняет эту работу, и мне нужно передать данные в Lucene, и он индексирует все документы.

При поиске определенного текста (скажем, "Compuet science") он приводит резюме, соответствующие результатам.

Для этого мне нужно конвертировать MSword-93/MSword-2007/PDF в текст и кормить Lucene.

Я могу получить текст из документов MSword2007, но не могу получить из MSword 2003.

Есть много авторов PDF, но я не получил ни одной библиотеки для чтения PDF, которая может это сделать.

Пожалуйста, ознакомьтесь с библиотекой программы чтения PDF и преобразованием документов MS93 в текст ИЛИ, пожалуйста, дайте мне знать, если есть какие-либо альтернативы для поиска Lucene

Спасибо большое спасибо за ответы

1 ответ

Решение

Вы можете использовать Apache Solr или напрямую Tika для извлечения текста из PDF-файлов и MS Word и индексирования его. Оба являются Java-проектами, но вы можете вызвать их сервер из PHP.

Другие вопросы по тегам