Парсинг cp1251 pdf к тексту в python
Есть ли способ извлечь текст из pdf файла с русским текстом (cp1251)?
Для разбора файлов PDF я использую пакет pdfminer. Я попытался указать кодировку в аргументе класса pdfminer.converter.TextConverter, но это не помогло.
1 ответ
Решение
Если вы хотите еще раз проанализировать текст, как только извлечете его из PDF-файла, вам понадобится python... Так что сначала просто извлеките текст без преобразования текста и сохраните его в текстовый файл.
Вы можете использовать pdf2txt для этой цели (с unbuntu: http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)
Затем вы открываете файл с помощью python и конвертируете текстовую форму cp1251 в utf-8, здесь будет показано, как это сделать:
Как преобразовать строку из CP-1251 в UTF-8?
Тогда разбери...