Конвертировать PDF в Word в Java

Можно ли конвертировать PDF в Word в Java? Я не говорю о разборе PDF-документа, а затем настраиваю его рендеринг в Word. Я хочу библиотеку Java, которая может напрямую конвертировать ее.

3 ответа

Чтение PDF-документов - очень сложный процесс, и нет хороших бесплатных библиотек для извлечения нетекстовой информации из PDF-документов на Java. Что еще хуже, PDF-документы содержат много информации о макете, которую трудно реконструировать, например, таблица в документе Word становится несколькими строками и кучей фрагментов текста в PDF.

Практически невозможно воссоздать семантическую информацию из произвольного PDF. Если у вас есть тот же инструмент, который написал его, у вас есть несколько больше шансов, но даже в этом случае много неопределенности. Единственное, в чем вы можете быть уверены в (текстовом) PDF - это положение каждого символа на странице. (Обратите внимание, что некоторые PDF-файлы содержат растровые изображения, в которых встречается текстовая информация и которая должна опираться на OCR).

Есть несколько групп в отделах информатики и в других местах, которые тратят очень значительные усилия, чтобы попытаться получить семантическую информацию. Мы сотрудничаем с Penn State - одним из лидеров - и они работают над извлечением таблиц. В хороших случаях они получают 90%, в плохих - 50%.

Таким образом, формально ответ таков: вы не можете, но иногда вам может повезти. (Мы делаем это для химии и считаем себя счастливыми, если получаем 50% на регулярной основе).

  1. Вы можете попробовать сделать это с библиотекой iText. Прочитайте PDF, а затем запишите его в формате RTF.
    Это не так просто, так как вы должны сохранить другой стиль, который есть в PDF.

  2. Вы можете использовать некоторые внешние инструменты.
    Установите бесплатную программу, такую ​​как "Free PDF to Doc", и запустите ее из вашей Java-программы.
    Это работает нормально в большинстве случаев.

  3. используйте Acrobat Pro SDK из вашего Java-кода.

Удачи

Другие вопросы по тегам