Хранение документов с полнотекстовой индексацией - PDF

Question

Хранение документов с полнотекстовой индексацией - PDF

Мы создали приложение для индексации представленных документов во многих форматах, от Microsoft Office до текста. Проблема в том, что для pdf мы часто прибегаем к конвертации в Word, а затем к индексации. Это медленный процесс и проблематичный, особенно потому, что он не обрабатывает PDF-файлы на основе изображений, где требуется компонент OCR.

Этот вопрос посвящен решению проблемы предоставления моим пользователям полнотекстового поиска в библиотеке документов PDF. Если есть сопоставимые решения, предпочтительным будет также решение, которое будет также обрабатывать форматы Microsoft Office.

В настоящее время мое приложение использует платформу J2EE с базой данных MySQL. Я был бы открыт для перехода на нереляционную базу данных, если бы это дало значительную выгоду.

1

pdf indexing java-ee ocr full-text-indexing

Источник

user1352806 05 мар '15 в 18:24

1 ответ

Решение

Другие вопросы по тегам pdf indexing java-ee ocr full-text-indexing

user1352806 09 мар '15 в 14:50 2015-03-09 14:50 · Accepted Answer · 2015-03-09 14:50

Я открыт для других идей, но это лучшее решение, которое я смог найти в своем исследовании.

Я исследовал множество инструментов и в итоге столкнулся с подобными Amazon Cloud Search и Google Drive SDK. Оба имеют сильные возможности индексирования, тегирования и пользовательских атрибутов, позволяющие осуществлять надежный полнотекстовый поиск.

Amazon Cloud Search, к сожалению, из коробки не обеспечивает индексирование PDF ( источник) и даже с такими обходными путями, как использование экспериментального инструмента командной строки ( описанного здесь) для генерации SDF из входного файла и последующей отправки через API, я бы затем придется интегрировать свой собственный или другой сторонний инструмент OCR.

Google Drive SDK/ API, в то время как есть существенный недостаток, требующий, чтобы у каждого пользователя была учетная запись Google (разделяя учетную запись между пользователями, мне тогда пришлось бы загружать файлы для их обслуживания, так как разрешения файлов не могли быть легко обойдены через URI), эта платформа соответствует и превосходит мою желаемую функциональность. Все, что нужно будет сделать при загрузке, это установить для параметра OCR значение true.