Получение местоположения текста из PDF
Я хочу знать расположение всех слов на странице PDF. Я пытался найти что-то в Интернете, но не смог. Кто-нибудь может мне помочь, какую библиотеку (желательно на платформе Java) я должен использовать?
2 ответа
Взгляните на этот учебник: http://www.luigimicco.altervista.org/doku.php/en/doc/pdf_structure
По сути, с PDFBox вы можете получить доступ к PDFContent с помощью
InputStream is = yourPDFDocument.getDocumentCatalog().getPages().get(yourPage).getContents();
а затем искать X Y Td
линия, которую вы ищете.
Я ДЕЙСТВИТЕЛЬНО уверен, что есть более простой способ сделать это, но так как я много работаю с Потоком контента для проекта, я знаю только об этом.
Поиск в javaDocs PDFBox для более подробной информации!
Я надеюсь, что это поможет вам:)
Вы можете использовать Textricator , но, к сожалению, документация не поддерживается, поэтому очень сложно заставить работать более интересные аспекты. Однако, чтобы просто увидеть расположение текста, вы можете использовать простой текстовый режим.
./textricator.bat text --pages=2 xxx.pdf
# output is a long list of CSV properties for the document, including the OCR read text and the x,y coordinates of it.