Описание тега pdfplumber

1 ответ

ModuleNotFoundError: нет модуля с именем pdfplumber

Я хотел бы импортировать и попробовал import pdfplumber и поймал ошибку: --------------------------------------------------------------------------- ModuleNotFoundError Traceback (most recent call last) <ipython-input-2-b3d6737fd8e1> in <mo…
25 фев '21 в 05:50
2 ответа

Как убрать пробел между английскими словами после извлечения из pdfplumber

Я извлек текст из pdf (используя pdfplumber) в txt, но между словами есть пробелы, которых нет в файле PDF. Я попытался nltk найти слова, используя комбинацию «Предыдущее_слово» + «текущее_слово» и проверить, существуют ли они в NLTK.words, чтобы уз…
15 мар '21 в 16:04
2 ответа

Использование библиотек Python в Django

Привет! Я был бы признателен, если бы кто-нибудь мог помочь мне с сомнением в использовании библиотек Python в Django. Я постараюсь быть максимально ясным, так что вот оно: В своей работе я работаю со счетами-фактурами, которые сохраняются в опреде…
22 апр '21 в 20:49
1 ответ

PDFPlumber возвращает символы и неточный текст

Я пытаюсь извлечь текст из файла PDF с помощью PDFplumber import pdfplumber pdf = pdfplumber.open(r"https://www.lupin.com/pdf/financials/subsidiaries/multicare-pharmaceuticals-philippines-inc-philippines-2018.pdf") for ps in pdf.pages: print(ps.extr…
02 май '21 в 08:09
1 ответ

Как игнорировать таблицу и ее содержимое при извлечении текста из pdf

Пока мне удалось извлечь текстовое содержимое из файла pdf. Я застрял в точке, где мне нужно извлечь текстовое содержимое за пределы таблицы (игнорировать таблицу и ее содержимое) и мне нужна помощь Pdf можно скачать здесь import pdfplumber pdfinsta…
04 май '21 в 10:29
1 ответ

Преобразование pytesseract.Output.DATAFRAME в байты или ocr'ed pdf

Можно ли записать в файл pdf задним числом с помощью вывода? Для моего конвейера OCR мне требовался детальный доступ к записанным данным в моем PDF-файле. Я просил, используя этот метод: ocr_dataframe = pytesseract.image_to_data( tesseract_image, ou…
04 май '21 в 16:58
1 ответ

Как оптимизировать (в том числе с точки зрения ОЗУ) код, который сохраняет слова из PDF в объект Python, а затем в базу данных?

Я ищу наиболее эффективный способ сохранения текста из файлов PDF в свою базу данных. В настоящее время я использую pdfplumber со стандартным кодом, который выглядит следующим образом: my_string = '' with pdfplumber.open(text_file_path) as pdf: for …
06 май '21 в 19:28
1 ответ

Попытка извлечь текст из PDF дает мне эту ошибку: «TypeError: может только объединить str (не« NoneType ») в str»

В настоящее время я пытаюсь извлечь текст из всего этого PDF-файла . Я попытался извлечь текст с отдельных страниц PDF-файла, и он работает правильно, но когда я пытаюсь извлечь весь PDF-файл, возникает следующая ошибка: Traceback (most recent call …
21 май '21 в 03:09
1 ответ

Как найти линии сетки таблицы в файлах PDF?

Чтобы более точно извлекать табличные данные, встроенные в ячейки таблицы, я хотел бы иметь возможность определять границы ячеек таблицы в PDF-файлах следующим образом: Я пробовал извлекать такие таблицы с помощью Camelot, pdfplumber и PyMuPDF с раз…
2 ответа

Как изолировать суммы в долларах с помощью Regex?

Я использовал библиотеку PDFPlumber для извлечения всех строк в моем PDF-файле, образец экстракта строки выглядит так: Итого возврат на транспорт $ 16,01 Цель состоит в том, чтобы поместить все это во фрейм данных. Как использовать регулярное выраже…
05 июн '21 в 20:45
0 ответов

Не удается закрыть файл PDF, открытый с помощью pdfplumber open()

У меня проблема с закрытием файла, открытого функцией. Всякий раз, когда я звоню extract_text() на файловом объекте кажется, что файл открыт даже после того, как pdfplumber.open()область, и я могу например. Вызов close() на объекте PDF тоже не помог…
09 июн '21 в 05:45
0 ответов

Чтобы получить определенные данные, извлеченные из PDF, с помощью Python

Я хочу извлечь номер мобильного телефона и адрес электронной почты из PDF-файла с резюме. Я создаю программу. Я могу извлекать данные из PDF, но я могу извлечь из данных только номер мобильного телефона, я не могу извлечь электронную почту. Идентифи…
13 июн '21 в 21:09
1 ответ

Извлечь текст из файла pdf с помощью pdfplumber

Я хочу извлечь текст из файла pdf, пробовал: directory = r'C:\Users\foo\folder' for x in os.listdir(directory): print(x) x = x.replace('.pdf','') filename = os.fsdecode(x) print(x) if filename.endswith('.pdf'): with pdfplumber.open(x) as pdf1: page1…
22 июн '21 в 04:58
1 ответ

Перечислить указатель вне диапазона при использовании PDF-сантехника

Здравствуйте, я извлекаю текст из PDF с помощью сантехника PDF и записываю его в текстовый файл, но получаю ошибку индекса за пределами допустимого диапазона. import glob import pdfplumber for filename in glob.glob('*.pdf'): pdf = pdfplumber.open(fi…
23 июн '21 в 11:07
0 ответов

Проблемы с кодированием при извлечении текста из файла pdf с помощью pdfplumber

Я хотел бы извлечь содержимое следующего файла PDF, но он возвращает бессмысленный результат. Я предполагаю, что это может быть связано со стороной кодирования файла, но тот же код извлечения работает для многих других файлов в той же инфраструктуре…
0 ответов

Есть ли способ автоматически печатать в PDF с использованием Python для обхода шифрования?

Я работаю над проектом, который включает автоматизацию извлечения данных PDF. Чтобы извлечь информацию из таблиц с помощью pdfplumber, мне нужно сгладить формы PDF, с которыми я работаю. Эти формы зашифрованы, и я не могу получить пароли. Я могу вру…
21 июл '21 в 13:10
0 ответов

Определить шаблон в строковых представлениях для анализа с помощью символов pdf регулярного выражения в python

Строки ниже представляют собой некоторый вывод pdf-parsing-output ( pdfplumberделает вкладки в 2 символа новой строки), которые я хочу структурировать. Я делаю это в for line in pdf_string.split('\n'): цикл, но ответ на этот вопрос должен зависеть о…
23 июл '21 в 17:38
1 ответ

Conda не устанавливает pdfplumber

Я пытаюсь использовать miniconda3 для установки pdfplumber. Я все время получаю это сообщение об ошибке и не знаю, как его интерпретировать. (env1) C:\Users\engineer>conda install -c conda-forge pdfplumber Collecting package metadata (current_rep…
05 авг '21 в 23:42
0 ответов

Парсинг статей в PDF-файле, сохраненном как изображение

У меня есть файл сказать , как это и я хочу , чтобы получить содержание статьи под названием «Открытое заявление» на номер страницы 4. Либо мне нужно его в образе или в текстовом формате. Также это только одна статья, может быть несколько статей, по…
2 ответа

Как извлечь детали таблицы в строки и столбцы с помощью pdfplumber

Я использую pdfplumber для извлечения таблиц из pdf. Но в используемой таблице нет видимых вертикальных линий, разделяющих содержимое, поэтому извлеченные данные разбиты на 3 строки и один огромный столбец. Я бы хотел, чтобы приведенная выше таблица…
21 авг '21 в 14:55