Полнотекстовый поиск с помощью мультимедийных файлов
Каков наилучший способ выполнения полнотекстового поиска по мультимедийным файлам? Я пытаюсь внедрить систему, в которой пользователь мог бы загружать случайные файлы (.doc, .pdf, .jpg, ...) и в дальнейшем, он мог бы искать их на основе содержимого файла или метаданных.
Буду признателен за некоторые идеи о том, как это построить.
PS - Я начал изучать Lucene и Nutch, но я думаю, что они делают намного больше, чем мне нужно.
Спасибо.
1 ответ
Решение
Вам следует взглянуть на Tika ( http://lucene.apache.org/tika/), которая является инструментарием для обнаружения и извлечения метаданных и структурированного текста.