Извлечение текста PDF на Windows 8 с помощью Python 3.5.0

Question

Извлечение текста PDF на Windows 8 с помощью Python 3.5.0

Я хочу извлечь текст из файла PDF с помощью Python 3.5.0 с помощью пакета Slate на Windows8.

Проблема: Несмотря на то, что я успешно установил пакет slate, когда я пытаюсь импортировать slate, возникают определенные ошибки. Пожалуйста, предложите, что мне не хватает.

Ошибки:

Traceback (последний вызов был последним): файл "", строка 1, в файле импорта сланца Файл "C:\Users\name\AppData\Local\Programs\Python\Python35-32\lib\site-packages\slate-0.4.1-py3.5.egg\slate__init__.py", строка 66, из импорта из сланца PDF
ImportError: невозможно импортировать имя 'PDF'

4

python pdf information-retrieval slate

Источник

user4779505 29 сен '15 в 04:47

3 ответа

Другие вопросы по тегам python pdf information-retrieval slate

user1219295 28 дек '15 в 20:44 2015-12-28 20:44 · Answer 1 · 2015-12-28 20:44

Вы могли бы попробовать pdftotext ( версия для Windows) из библиотеки poppler.

Как отдельная программа, она не требует Python. Но я часто использую его из Python как подпроцесс, например:

import subprocess

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)

user2461376 28 дек '15 в 20:35 2015-12-28 20:35 · Answer 2 · 2015-12-28 20:35

Сланец зависит от PDFMiner (Python 3 не поддерживается.)

Вы можете попробовать установить его с помощью:

pip install PDFMiner

Я пошел с установкой pdfminer3k - pypi - но он не отвечал должным образом (и документация не была хорошей), поэтому я посмотрел немного больше и нашел эту страницу для возможных альтернатив. Дайте мне знать, если какой-либо из них удовлетворяет.

user1181744 16 фев '17 в 10:52 2017-02-16 10:52 · Answer 3 · 2017-02-16 10:52

Вы можете установить pdfminer.six

pip install pdfminer.six

https://pypi.python.org/pypi/pdfminer.six/20160614

2

Источник

user1181744 16 фев '17 в 10:52