Описание тега python-camelot
Camelot is a Python library that makes it easy for anyone to extract tabular data from PDF files.
18
ответов
Python-camelot (ошибка: GhostscriptNotFound, пока он установлен)
Я пытаюсь извлечь табличные данные из PDF с помощью Camelot, и я получаю следующую ошибку. Код: tables = camelot.read_pdf(file_name) Ошибка: GhostscriptNotFound: Убедитесь, что Ghostscript установлен и доступен для переменной среды PATH Я уже устано…
15 ноя '18 в 12:03
0
ответов
Неразборчивый текст Камелот
Я использую Камелот для извлечения текста из нескольких PDF-файлов. Конкретная таблица из PDF (показана ниже) доставляет мне проблемы с добычей. Одиночные кресты действуют как единое целое, когда я строю таблицу (показано ниже) Я хотел бы знать, поч…
28 янв '19 в 11:29
2
ответа
Невозможно прочитать PDF с помощью Camelot
Я использовал camelot читать PDF-файл, но я могу получить только часть его. Как прочитать всю страницу? import camelot import pandas as pd tables = camelot.read_pdf('data.pdf', pages='all', flavor = 'stream') df = tables[0].df Результат df является …
13 фев '19 в 06:40
0
ответов
Таблица не распознается
import pandas as pd from tabula import read_pdf FileName="Filepath" DF3=read_pdf(FileName,multiple_tables=True,options="--pages 'all'", lattice= True) print DF3 import pandas as pd import camelot FileName="Filepath" tables = camelot.read_pdf(FileNam…
28 фев '19 в 15:39
1
ответ
Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью camelot
Я использую Camelot для извлечения данных таблицы, однако заголовок не извлекается как часть PDF. Прикрепленная ниже целевая PDF-ссылка и целевая таблица находятся на страницах № 3 и 4, которые нужно извлечь. https://drive.google.com/file/d/1xniTIwp…
08 ноя '18 в 08:20
0
ответов
AttributeError: модуль 'camelot' не имеет атрибута 'read_pdf'
Я пытаюсь извлечь таблицы из PDF с помощью Camelot. Я установил Камелот 12.06.29 с помощью https://camelot-py.readthedocs.io/en/master/user/install.html ссылки. Моя аппаратная / программная конфигурация: процессор AMD Ryzen5 /Windows_10_Home. Когда …
29 окт '18 в 09:43
0
ответов
Не удалось получить таблицу из приведенного ниже PDF с использованием потока
Не удалось получить таблицу снизу PDF. Я использую поток, так как данные в свободном тексте потока. Строки отсутствуют. Добавление вывода: файл output.csv
11 ноя '18 в 12:28
1
ответ
Найти PDF размеры с Камелот
Я использую Камелот, чтобы прочитать полные PDF-файлы и извлечь около 112 атрибутов из каждого. Я использую области таблицы для извлечения атрибутов test_variable = camelot.read_pdf(filename, flavor='stream', table_areas=['38, 340 ,50, 328']) Пробле…
14 янв '19 в 06:32
1
ответ
Удалить пробел из PDF документа
Я использую Camelot-py для чтения и извлечения атрибутов из нескольких PDF-файлов. Я использую table_areas для извлечения некоторых атрибутов, и я сталкиваюсь с трудностями при настройке правильных областей из-за отклонения координат X или Y между н…
28 янв '19 в 13:00
0
ответов
Синтаксический анализ таблицы pdf возвращает текст с (cid:xxx)
Camelot может правильно определить схему таблицы на странице PDF, однако некоторые столбцы содержат текст с cid как "(cid:1005)(cid:856)(cid:1008)(cid:1009)(cid:1081)" . Кто-нибудь нашел решение, чтобы обойти эту проблему? Я искал переполнение стека…
02 янв '19 в 06:05
1
ответ
Python-Camelot извлекает пустые таблицы
Я использую Camelot для извлечения нескольких разделов PDF с помощью следующей команды. cgl_section = camelot.read_pdf(filename, flavor='stream', table_areas=['35,490,155,483', '53,480,110,470', '117,480,155,470', '38,469,106,456', '39,454,105,445',…
02 янв '19 в 09:52
3
ответа
Как извлечь таблицы из исторического PDF?
Мне нужно извлечь данные из таблиц одинакового формата из этого файла. Есть некоторые ошибки OCR, но у меня есть автоматический метод их исправления. Я пытался: ABBYY Finereader для обнаружения таблиц. Табула извлечение таблицы Камелот извлечение ст…
23 фев '19 в 01:33
0
ответов
Использование table_areas в python camelot / excalibur
Привет у меня проблемы с определением областей таблицы для несвязанных таблиц с помощью Camelot. Я использую таблицы областей PDF в качестве примера. Я использую GIMP для того, чтобы получить координаты таблицы, поскольку созданный текстовый график …
05 дек '18 в 20:43
3
ответа
Проблема извлечения таблицы без полей в Python Camelot
Я стараюсь извлечь таблицу без полей, как показано на рисунке ниже, которые из PDF-файлов. Установили python-camelot по ссылке " https://github.com/socialcopsdev/camelot" и работают нормально только для граничных таблиц. Пожалуйста, найдите ниже дет…
08 ноя '18 в 14:03
1
ответ
При извлечении данных из этого PDF с помощью Camelot не найдено таблиц и объединен текст столбца.
Я получаю UserWarning: No tables found on page-1 когда я пытаюсь извлечь таблицы из прилагаемого PDF . Однако когда я посмотрел на извлеченные данные, часть текста столбца была объединена в один столбец ". Я использую Камелот для разбора этих PDF-фа…
09 ноя '18 в 18:39
1
ответ
Камелот: Использование аргумента "table_regions" возвращает "слишком много значений для распаковки (ожидается 4)"
Я пытаюсь извлечь табличные данные из PDF с помощью Camelot. При использовании аргумента "table_regions" я получаю ошибку "слишком много значений для распаковки (ожидается 4)" tables = camelot.read_pdf('BOA1.pdf',flavor="stream",pages="3",table_regi…
06 май '19 в 01:45
2
ответа
Как перебрать список фреймов данных и удалить все данные, если конкретная строка не найдена
Я использую библиотеку Python Camelot для анализа нескольких PDF-файлов и извлечения всех таблиц в этих PDF-файлах. Первая строка кода возвращает все таблицы, которые были извлечены из PDF-файла в виде списка. В частности, я ищу одну таблицу с уника…
07 мар '19 в 21:22
2
ответа
"Формат файла не поддерживается" при многопоточности списка файлов PDF
Я учу себя основам работы с потоками в Python и застрял. Я хочу, чтобы скрипт применил функцию к списку PDF-файлов. Предполагается, что эта функция просто подсчитывает количество таблиц в каждом файле PDF, а затем возвращает комбинированный список с…
10 мар '19 в 23:11
0
ответов
Как переключать координаты области таблицы в Python Camelot и Tabula-Py
Я получил координаты ограничивающей рамки таблицы с помощью Camelot, но мне нужно использовать tabula-py для извлечения данных таблицы, поскольку camelot извлекает только первую строку в каждой ячейке таблицы, даже в режиме решетки. Я заметил, что п…
08 май '19 в 16:17
0
ответов
Камелот обрабатывает одни и те же ячейки разными рядами
Камелот рассматривает некоторые строки как отдельные, когда на самом деле они не являются. Результатом являются строки, которые должны были принадлежать предыдущей строке. Я работаю с Камелот, чтобы извлечь данные из банковских выписок. Проблема в т…
05 апр '19 в 21:33