Что является хорошей альтернативой для поиска Lucene?
У меня есть тысячи резюме, и я хочу найти резюме, в которых в качестве фона использовалась "информатика".
Итак, я погуглил и узнал, что Lucene выполняет эту работу, и мне нужно передать данные в Lucene, и он индексирует все документы.
При поиске определенного текста (скажем, "Compuet science") он приводит резюме, соответствующие результатам.
Для этого мне нужно конвертировать MSword-93/MSword-2007/PDF в текст и кормить Lucene.
Я могу получить текст из документов MSword2007, но не могу получить из MSword 2003.
Есть много авторов PDF, но я не получил ни одной библиотеки для чтения PDF, которая может это сделать.
Пожалуйста, ознакомьтесь с библиотекой программы чтения PDF и преобразованием документов MS93 в текст ИЛИ, пожалуйста, дайте мне знать, если есть какие-либо альтернативы для поиска Lucene
Спасибо большое спасибо за ответы
1 ответ
Вы можете использовать Apache Solr или напрямую Tika для извлечения текста из PDF-файлов и MS Word и индексирования его. Оба являются Java-проектами, но вы можете вызвать их сервер из PHP.