pdfquery не возвращает значения в BBOX

Question

pdfquery не возвращает значения в BBOX

Я пытаюсь вернуть текст в желаемом bbox pdf, используя библиотеку pdfquery.

import pdfquery

pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")

test =  pdf.extract([
      ('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
 ])

print(test)

Сначала я определил bbox в верхнем левом углу страницы, которая вернулась

{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}

Затем я определил bbox в левом нижнем углу страницы и вернулся аналогичным образом. Затем я продолжил определять bbox, который охватывает всю страницу 8.5" x 11" и возвращал еще больше значений вместо всего текста. Неужели я что-то не так сделал, следуя Документации в разделе "Быстрый старт". Я использую Python 2.7

1

python pdf pyquery

Источник

user4854766 18 июл '17 в 16:42

1 ответ

Другие вопросы по тегам python pdf pyquery

user8364698 25 июл '17 в 15:26 2017-07-25 15:26 · Answer 1 · 2017-07-25 15:26

Это сказало это немного дальше вниз по той странице под Bulk Data Scraping:

(Часто полезно начинать с ('with_formatter', 'text'), чтобы вы получали результаты, например, "Michaels" вместо [<'LTTextLineHor horizontal>]. Подробнее см. В разделе "Ключевые слова" ниже.)

0

Источник

user8364698 25 июл '17 в 15:26