Хранение документов с полнотекстовой индексацией - PDF
Мы создали приложение для индексации представленных документов во многих форматах, от Microsoft Office до текста. Проблема в том, что для pdf мы часто прибегаем к конвертации в Word, а затем к индексации. Это медленный процесс и проблематичный, особенно потому, что он не обрабатывает PDF-файлы на основе изображений, где требуется компонент OCR.
Этот вопрос посвящен решению проблемы предоставления моим пользователям полнотекстового поиска в библиотеке документов PDF. Если есть сопоставимые решения, предпочтительным будет также решение, которое будет также обрабатывать форматы Microsoft Office.
В настоящее время мое приложение использует платформу J2EE с базой данных MySQL. Я был бы открыт для перехода на нереляционную базу данных, если бы это дало значительную выгоду.
1 ответ
Я открыт для других идей, но это лучшее решение, которое я смог найти в своем исследовании.
Я исследовал множество инструментов и в итоге столкнулся с подобными Amazon Cloud Search и Google Drive SDK. Оба имеют сильные возможности индексирования, тегирования и пользовательских атрибутов, позволяющие осуществлять надежный полнотекстовый поиск.
Amazon Cloud Search, к сожалению, из коробки не обеспечивает индексирование PDF ( источник) и даже с такими обходными путями, как использование экспериментального инструмента командной строки ( описанного здесь) для генерации SDF из входного файла и последующей отправки через API, я бы затем придется интегрировать свой собственный или другой сторонний инструмент OCR.
Google Drive SDK/ API, в то время как есть существенный недостаток, требующий, чтобы у каждого пользователя была учетная запись Google (разделяя учетную запись между пользователями, мне тогда пришлось бы загружать файлы для их обслуживания, так как разрешения файлов не могли быть легко обойдены через URI), эта платформа соответствует и превосходит мою желаемую функциональность. Все, что нужно будет сделать при загрузке, это установить для параметра OCR значение true.