Проблемы с кодировкой PyPDF2

Question

Проблемы с кодировкой PyPDF2

У меня возникли проблемы с определением, почему вывод не совпадает с вводом PDF при извлечении текста. И если есть какие-то хитрости, я могу это исправить, поскольку это не единичная проблема.

with open(file, 'rb') as f:
  binary = PyPDF2.pdf.PdfFileReader(f)
  text = binary.getPage(x).extractText()
print(text)

файл: "Фильтры ввода / вывода, 292–293"
вывод: "I/O Þlters, 292Ð293"

Кажется, что ì представляет все случаи "-", а Þ используется для всех случаев "fi".

Я использую Windows CMD в качестве вывода для тестирования, и я знаю, что некоторые символы отображаются неправильно, но это приводит меня в замешательство из-за чего-то вроде 'fi'

2

python-3.x pypdf2

Источник

user2331302 24 окт '18 в 22:36

1 ответ

Другие вопросы по тегам python-3.x pypdf2

user562769 04 янв '23 в 17:26 2023-01-04 17:26 · Answer 1 · 2023-01-04 17:26

Извлечение текста из PyPDF2 было значительно улучшено в версиях 2.x. Весь проект переехал вpypdf.

Я рекомендую вам попробовать еще раз: https://pypdf.readthedocs.io/en/latest/user/extract-text.html

      from pypdf import PdfReader

reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())

1

Источник

user562769 04 янв '23 в 17:26