Что я должен использовать как кусок кода для запуска PDFMiner 3k?
Я хочу использовать PDFMiner 3k, я использую python 3.3.3 для Windows, я не знаю, какие инструкции написать для использования PFDMiner 3k, я пробовал много кодов и до сих пор не работает, некоторые из них были для PDFMiner (Python 2.7), например, я попробовал следующий код:
import nltk
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
Обратите внимание, что я поместил файл скрипта в каталог, содержащий каталог PDFMiner 3k. Последний называется pdfminer.
Я получаю следующую ошибку:
ImportError: No module named 'pdfminer.pdfminer'; pdfminer is not a package
Любые предложения? Мне нужна помощь, ребята.
1 ответ
Трудно сказать, но, похоже, ваша проблема в том, что вы не установили PDFMiner3k, вы просто распаковали его в тот же каталог, что и ваши данные.
Не делай этого. Несколько пакетов работают таким образом, но большинство - нет.
Также, PDFMiner3k
требует некоторых пакетов, которые не поставляются с Python, таких как ply
, Если у вас их нет, это не сработает.
Правильный способ установки пакетов - это почти всегда pip
,
На самом деле, вам даже не нужно его загружать; просто pip install PDFMiner3k
, а также pip
будет искать последнюю версию и последние версии всего, что требуется, и установить их все для вас.
Конечно, вам также нужно будет установить NLTK, если вы хотите nltk
работать. Но вы, вероятно, можете угадать команду для этого.
Есть несколько пакетов, для сборки которых требуется компилятор C. Хотя для большинства из них должны быть бинарные колеса, pip install spam
все еще работает, некоторые пакеты не полностью обновлены. Итак, если вы получаете ошибки о компиляторах или vcvarsall или аналогичных, посетите сайт Кристофа Гольке; у него есть колеса для пакетов, которые не делают свои собственные.