Проблемы с кодировкой PyPDF2

У меня возникли проблемы с определением, почему вывод не совпадает с вводом PDF при извлечении текста. И если есть какие-то хитрости, я могу это исправить, поскольку это не единичная проблема.

with open(file, 'rb') as f:
  binary = PyPDF2.pdf.PdfFileReader(f)
  text = binary.getPage(x).extractText()
print(text)

файл: "Фильтры ввода / вывода, 292–293"
вывод: "I/O Þlters, 292Ð293"

Кажется, что ì представляет все случаи "-", а Þ используется для всех случаев "fi".

Я использую Windows CMD в качестве вывода для тестирования, и я знаю, что некоторые символы отображаются неправильно, но это приводит меня в замешательство из-за чего-то вроде 'fi'

1 ответ

Извлечение текста из PyPDF2 было значительно улучшено в версиях 2.x. Весь проект переехал вpypdf.

Я рекомендую вам попробовать еще раз: https://pypdf.readthedocs.io/en/latest/user/extract-text.html

      from pypdf import PdfReader

reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Другие вопросы по тегам