Парсинг cp1251 pdf к тексту в python

Есть ли способ извлечь текст из pdf файла с русским текстом (cp1251)?

Для разбора файлов PDF я использую пакет pdfminer. Я попытался указать кодировку в аргументе класса pdfminer.converter.TextConverter, но это не помогло.

1 ответ

Решение

Если вы хотите еще раз проанализировать текст, как только извлечете его из PDF-файла, вам понадобится python... Так что сначала просто извлеките текст без преобразования текста и сохраните его в текстовый файл.

Вы можете использовать pdf2txt для этой цели (с unbuntu: http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)

Затем вы открываете файл с помощью python и конвертируете текстовую форму cp1251 в utf-8, здесь будет показано, как это сделать:

Как преобразовать строку из CP-1251 в UTF-8?

Тогда разбери...

Другие вопросы по тегам