Парсинг cp1251 pdf к тексту в python

Question

Парсинг cp1251 pdf к тексту в python

Есть ли способ извлечь текст из pdf файла с русским текстом (cp1251)?

Для разбора файлов PDF я использую пакет pdfminer. Я попытался указать кодировку в аргументе класса pdfminer.converter.TextConverter, но это не помогло.

1

python parsing pdf cp1251

Источник

user5268665 26 авг '15 в 13:28

1 ответ

Решение

Другие вопросы по тегам python parsing pdf cp1251

user2027027 26 авг '15 в 14:35 2015-08-26 14:35 · Accepted Answer · 2015-08-26 14:35

Если вы хотите еще раз проанализировать текст, как только извлечете его из PDF-файла, вам понадобится python... Так что сначала просто извлеките текст без преобразования текста и сохраните его в текстовый файл.

Вы можете использовать pdf2txt для этой цели (с unbuntu: http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)

Затем вы открываете файл с помощью python и конвертируете текстовую форму cp1251 в utf-8, здесь будет показано, как это сделать:

Как преобразовать строку из CP-1251 в UTF-8?

Тогда разбери...