Проблемы с кодировкой PyPDF2
У меня возникли проблемы с определением, почему вывод не совпадает с вводом PDF при извлечении текста. И если есть какие-то хитрости, я могу это исправить, поскольку это не единичная проблема.
with open(file, 'rb') as f:
binary = PyPDF2.pdf.PdfFileReader(f)
text = binary.getPage(x).extractText()
print(text)
файл: "Фильтры ввода / вывода, 292–293"
вывод: "I/O Þlters, 292Ð293"
Кажется, что ì представляет все случаи "-", а Þ используется для всех случаев "fi".
Я использую Windows CMD в качестве вывода для тестирования, и я знаю, что некоторые символы отображаются неправильно, но это приводит меня в замешательство из-за чего-то вроде 'fi'
1 ответ
Извлечение текста из PyPDF2 было значительно улучшено в версиях 2.x. Весь проект переехал вpypdf
.
Я рекомендую вам попробовать еще раз: https://pypdf.readthedocs.io/en/latest/user/extract-text.html
from pypdf import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())