Описание тега python-camelot

Camelot is a Python library that makes it easy for anyone to extract tabular data from PDF files.
18 ответов

Python-camelot (ошибка: GhostscriptNotFound, пока он установлен)

Я пытаюсь извлечь табличные данные из PDF с помощью Camelot, и я получаю следующую ошибку. Код: tables = camelot.read_pdf(file_name) Ошибка: GhostscriptNotFound: Убедитесь, что Ghostscript установлен и доступен для переменной среды PATH Я уже устано…
15 ноя '18 в 12:03
0 ответов

Неразборчивый текст Камелот

Я использую Камелот для извлечения текста из нескольких PDF-файлов. Конкретная таблица из PDF (показана ниже) доставляет мне проблемы с добычей. Одиночные кресты действуют как единое целое, когда я строю таблицу (показано ниже) Я хотел бы знать, поч…
2 ответа

Невозможно прочитать PDF с помощью Camelot

Я использовал camelot читать PDF-файл, но я могу получить только часть его. Как прочитать всю страницу? import camelot import pandas as pd tables = camelot.read_pdf('data.pdf', pages='all', flavor = 'stream') df = tables[0].df Результат df является …
13 фев '19 в 06:40
0 ответов

Таблица не распознается

import pandas as pd from tabula import read_pdf FileName="Filepath" DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True) print DF3 import pandas as pd import camelot FileName="Filepath" tables = camelot.read_pdf(FileNam…
28 фев '19 в 15:39
1 ответ

Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью camelot

Я использую Camelot для извлечения данных таблицы, однако заголовок не извлекается как часть PDF. Прикрепленная ниже целевая PDF-ссылка и целевая таблица находятся на страницах № 3 и 4, которые нужно извлечь. https://drive.google.com/file/d/1xniTIwp…
08 ноя '18 в 08:20
0 ответов

AttributeError: модуль 'camelot' не имеет атрибута 'read_pdf'

Я пытаюсь извлечь таблицы из PDF с помощью Camelot. Я установил Камелот 12.06.29 с помощью https://camelot-py.readthedocs.io/en/master/user/install.html ссылки. Моя аппаратная / программная конфигурация: процессор AMD Ryzen5 /Windows_10_Home. Когда …
29 окт '18 в 09:43
0 ответов

Не удалось получить таблицу из приведенного ниже PDF с использованием потока

Не удалось получить таблицу снизу PDF. Я использую поток, так как данные в свободном тексте потока. Строки отсутствуют. Добавление вывода: файл output.csv
11 ноя '18 в 12:28
1 ответ

Найти PDF размеры с Камелот

Я использую Камелот, чтобы прочитать полные PDF-файлы и извлечь около 112 атрибутов из каждого. Я использую области таблицы для извлечения атрибутов test_variable = camelot.read_pdf(filename, flavor='stream', table_areas=['38, 340 ,50, 328']) Пробле…
14 янв '19 в 06:32
1 ответ

Удалить пробел из PDF документа

Я использую Camelot-py для чтения и извлечения атрибутов из нескольких PDF-файлов. Я использую table_areas для извлечения некоторых атрибутов, и я сталкиваюсь с трудностями при настройке правильных областей из-за отклонения координат X или Y между н…
0 ответов

Синтаксический анализ таблицы pdf возвращает текст с (cid:xxx)

Camelot может правильно определить схему таблицы на странице PDF, однако некоторые столбцы содержат текст с cid как "(cid:1005)(cid:856)(cid:1008)(cid:1009)(cid:1081)" . Кто-нибудь нашел решение, чтобы обойти эту проблему? Я искал переполнение стека…
02 янв '19 в 06:05
1 ответ

Python-Camelot извлекает пустые таблицы

Я использую Camelot для извлечения нескольких разделов PDF с помощью следующей команды. cgl_section = camelot.read_pdf(filename, flavor='stream', table_areas=['35,490,155,483', '53,480,110,470', '117,480,155,470', '38,469,106,456', '39,454,105,445',…
3 ответа

Как извлечь таблицы из исторического PDF?

Мне нужно извлечь данные из таблиц одинакового формата из этого файла. Есть некоторые ошибки OCR, но у меня есть автоматический метод их исправления. Я пытался: ABBYY Finereader для обнаружения таблиц. Табула извлечение таблицы Камелот извлечение ст…
0 ответов

Использование table_areas в python camelot / excalibur

Привет у меня проблемы с определением областей таблицы для несвязанных таблиц с помощью Camelot. Я использую таблицы областей PDF в качестве примера. Я использую GIMP для того, чтобы получить координаты таблицы, поскольку созданный текстовый график …
05 дек '18 в 20:43
3 ответа

Проблема извлечения таблицы без полей в Python Camelot

Я стараюсь извлечь таблицу без полей, как показано на рисунке ниже, которые из PDF-файлов. Установили python-camelot по ссылке " https://github.com/socialcopsdev/camelot" и работают нормально только для граничных таблиц. Пожалуйста, найдите ниже дет…
08 ноя '18 в 14:03
1 ответ

При извлечении данных из этого PDF с помощью Camelot не найдено таблиц и объединен текст столбца.

Я получаю UserWarning: No tables found on page-1 когда я пытаюсь извлечь таблицы из прилагаемого PDF . Однако когда я посмотрел на извлеченные данные, часть текста столбца была объединена в один столбец ". Я использую Камелот для разбора этих PDF-фа…
09 ноя '18 в 18:39
1 ответ

Камелот: Использование аргумента "table_regions" возвращает "слишком много значений для распаковки (ожидается 4)"

Я пытаюсь извлечь табличные данные из PDF с помощью Camelot. При использовании аргумента "table_regions" я получаю ошибку "слишком много значений для распаковки (ожидается 4)" tables = camelot.read_pdf('BOA1.pdf',flavor="stream",pages="3",table_regi…
06 май '19 в 01:45
2 ответа

Как перебрать список фреймов данных и удалить все данные, если конкретная строка не найдена

Я использую библиотеку Python Camelot для анализа нескольких PDF-файлов и извлечения всех таблиц в этих PDF-файлах. Первая строка кода возвращает все таблицы, которые были извлечены из PDF-файла в виде списка. В частности, я ищу одну таблицу с уника…
07 мар '19 в 21:22
2 ответа

"Формат файла не поддерживается" при многопоточности списка файлов PDF

Я учу себя основам работы с потоками в Python и застрял. Я хочу, чтобы скрипт применил функцию к списку PDF-файлов. Предполагается, что эта функция просто подсчитывает количество таблиц в каждом файле PDF, а затем возвращает комбинированный список с…
0 ответов

Как переключать координаты области таблицы в Python Camelot и Tabula-Py

Я получил координаты ограничивающей рамки таблицы с помощью Camelot, но мне нужно использовать tabula-py для извлечения данных таблицы, поскольку camelot извлекает только первую строку в каждой ячейке таблицы, даже в режиме решетки. Я заметил, что п…
08 май '19 в 16:17
0 ответов

Камелот обрабатывает одни и те же ячейки разными рядами

Камелот рассматривает некоторые строки как отдельные, когда на самом деле они не являются. Результатом являются строки, которые должны были принадлежать предыдущей строке. Я работаю с Камелот, чтобы извлечь данные из банковских выписок. Проблема в т…
05 апр '19 в 21:33