Полнотекстовый поиск с помощью мультимедийных файлов

Каков наилучший способ выполнения полнотекстового поиска по мультимедийным файлам? Я пытаюсь внедрить систему, в которой пользователь мог бы загружать случайные файлы (.doc, .pdf, .jpg, ...) и в дальнейшем, он мог бы искать их на основе содержимого файла или метаданных.

Буду признателен за некоторые идеи о том, как это построить.

PS - Я начал изучать Lucene и Nutch, но я думаю, что они делают намного больше, чем мне нужно.

Спасибо.

1 ответ

Решение

Вам следует взглянуть на Tika ( http://lucene.apache.org/tika/), которая является инструментарием для обнаружения и извлечения метаданных и структурированного текста.

Другие вопросы по тегам