pdfquery не возвращает значения в BBOX
Я пытаюсь вернуть текст в желаемом bbox pdf, используя библиотеку pdfquery.
import pdfquery
pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")
test = pdf.extract([
('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
])
print(test)
Сначала я определил bbox в верхнем левом углу страницы, которая вернулась
{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}
Затем я определил bbox в левом нижнем углу страницы и вернулся аналогичным образом. Затем я продолжил определять bbox, который охватывает всю страницу 8.5" x 11" и возвращал еще больше значений вместо всего текста. Неужели я что-то не так сделал, следуя Документации в разделе "Быстрый старт". Я использую Python 2.7
1 ответ
Это сказало это немного дальше вниз по той странице под Bulk Data Scraping:
(Часто полезно начинать с ('with_formatter', 'text'), чтобы вы получали результаты, например, "Michaels" вместо [<'LTTextLineHor horizontal>]. Подробнее см. В разделе "Ключевые слова" ниже.)