Получение местоположения текста из PDF

Я хочу знать расположение всех слов на странице PDF. Я пытался найти что-то в Интернете, но не смог. Кто-нибудь может мне помочь, какую библиотеку (желательно на платформе Java) я должен использовать?

2 ответа

Взгляните на этот учебник: http://www.luigimicco.altervista.org/doku.php/en/doc/pdf_structure

По сути, с PDFBox вы можете получить доступ к PDFContent с помощью

InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents();

а затем искать X Y Td линия, которую вы ищете.

Я ДЕЙСТВИТЕЛЬНО уверен, что есть более простой способ сделать это, но так как я много работаю с Потоком контента для проекта, я знаю только об этом.
Поиск в javaDocs PDFBox для более подробной информации!

Я надеюсь, что это поможет вам:)

Вы можете использовать Textricator , но, к сожалению, документация не поддерживается, поэтому очень сложно заставить работать более интересные аспекты. Однако, чтобы просто увидеть расположение текста, вы можете использовать простой текстовый режим.

      ./textricator.bat text --pages=2 xxx.pdf

# output is a long list of CSV properties for the document, including the OCR read text and the x,y coordinates of it.  
Другие вопросы по тегам