Получение местоположения текста из PDF

Question

Получение местоположения текста из PDF

Я хочу знать расположение всех слов на странице PDF. Я пытался найти что-то в Интернете, но не смог. Кто-нибудь может мне помочь, какую библиотеку (желательно на платформе Java) я должен использовать?

-1

pdf itext pdfbox pdf2htmlex

Источник

user4205552 08 дек '15 в 11:01

2 ответа

Другие вопросы по тегам pdf itext pdfbox pdf2htmlex

user5524496 09 дек '15 в 11:25 2015-12-09 11:25 · Answer 1 · 2015-12-09 11:25

Взгляните на этот учебник: http://www.luigimicco.altervista.org/doku.php/en/doc/pdf_structure

По сути, с PDFBox вы можете получить доступ к PDFContent с помощью

InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents();

а затем искать X Y Td линия, которую вы ищете.

Я ДЕЙСТВИТЕЛЬНО уверен, что есть более простой способ сделать это, но так как я много работаю с Потоком контента для проекта, я знаю только об этом.
Поиск в javaDocs PDFBox для более подробной информации!

Я надеюсь, что это поможет вам:)

user1147688 25 апр '21 в 16:09 2021-04-25 16:09 · Answer 2 · 2021-04-25 16:09

Вы можете использовать Textricator , но, к сожалению, документация не поддерживается, поэтому очень сложно заставить работать более интересные аспекты. Однако, чтобы просто увидеть расположение текста, вы можете использовать простой текстовый режим.

      ./textricator.bat text --pages=2 xxx.pdf

# output is a long list of CSV properties for the document, including the OCR read text and the x,y coordinates of it.