Проблемы с PyMuPDF извлечения простого текста

Question

Проблемы с PyMuPDF извлечения простого текста

Я хочу читать в PDF-файл, используя PyMuPDF. Все, что мне нужно, это простой текст (не нужно извлекать информацию о цвете, шрифтах, таблицах и т. Д.).

Я пробовал следующее

import fitz
from fitz import TextPage
ifile = "C:\\user\\docs\\aPDFfile.pdf"
doc = TextPage(ifile)
>>> TypeError: in method 'new_TextPage', argument 1 of type 'struct fz_rect_s *'

Что не работает, так что я попытался

doc = fitz.Document(ifile)
t = TextPage.extractText(doc)
>>> AttributeError: 'Document' object has no attribute '_extractText'

что опять не работает.

Затем я нашел отличный блог от одного из авторов PyMuPDF, в котором есть подробный код для извлечения текста в порядке его чтения из файла. Но каждый раз, когда я запускаю этот код с другим PDF, я получаю KeyError: 'lines' (строка 81 в коде) или KeyError: "bbox" (строка 60 в коде).

Я не могу публиковать PDF-файлы здесь, потому что они являются конфиденциальными, и я ценю, что это была бы полезная информация, чтобы иметь здесь. Но есть ли способ, которым я могу просто выполнить простейшую задачу, которую должен выполнять PyMuPDF: извлечь простой текст из PDF, неупорядоченный или каким-либо другим (я не против)?

6

python pdf pymupdf

Источник

user4139143 04 июн '18 в 14:05

4 ответа

Другие вопросы по тегам python pdf pymupdf

user4474869 11 июн '20 в 16:44 2020-06-11 16:44 · Answer 1 · 2020-06-11 16:44

Сообщение от сопровождающего репо:

Самый простой способ извлечь простой текст, но при этом выполнить хотя бы базовое упорядочение:

blocks = page.getText("blocks")
blocks.sort(key=lambda block: block[1])  # sort vertically ascending

for b in blocks:
    print(b[4])  # the text part of each block

9

Источник

user4474869 11 июн '20 в 16:44

user2468152 14 янв '19 в 10:17 2019-01-14 10:17 · Answer 2 · 2019-01-14 10:17

Процесс извлечения текста по вашему примеру с использованием PyMuPDF:

import fitz
ifile = "C:\\user\\docs\\aPDFfile.pdf"
doc = fitz.open(ifile)
page_count = doc.pageCount
page = 0
text = ''
while (page < page_count):
    p = doc.loadPage(page)
    page += 1
    text = text + p.getText()
print(text)

Блог, за которым вы следите, великолепен, но немного устарел, некоторые методы устарели.

user9468535 11 дек '21 в 03:13 2021-12-11 03:13 · Answer 3 · 2021-12-11 03:13

      import fitz

filepath = "C:\\user\\docs\\aPDFfile.pdf"

text = ''
with fitz.open(filepath ) as doc:
    for page in doc:
        text+= page.get_text()

print(text)

1

Источник

user9468535 11 дек '21 в 03:13

user8684513 11 окт '22 в 09:11 2022-10-11 09:11 · Answer 4 · 2022-10-11 09:11

используйте маленькую Т вgettext():

      import fitz

filepath = "C:\\user\\docs\\aPDFfile.pdf"

text = ''
with fitz.open(filepath ) as doc:
    for page in doc:
        text+= page.gettext()
print(text)

это работа для тебя

-1

Источник

user8684513 11 окт '22 в 09:11