Описание тега pdftables

Pdftables - это пакет Python для извлечения таблиц из файлов PDF.
0 ответов

PDFplumber пароль и check_extractable

Я использую библиотеку pdfplumber для анализа pdf. Способ доступа к pdf-файлу - "pdfplumber.open(path)". Может кто-нибудь, пожалуйста, помогите мне, как передать пароль и параметры check_extractable в этом.
22 фев '19 в 10:45
2 ответа

Извлечь все таблицы из PDF в Python

У меня есть PDF и я хочу извлечь все таблицы из этого PDF. Когда я запускаю код ниже, я получаю пустой список. filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf' fh = open(filepath, 'rb') table = pdftables.get_tables(fh) print(table)
07 сен '18 в 09:06
0 ответов

Извлечение <table> из строки html и создание pdf с использованием

Я пытаюсь извлечь табличные теги (html) из строки и вывести их в виде таблицы в формате PDF, которую я загружаю на свой локальный компьютер. Поскольку строка, содержащая html-содержимое, является динамической, я не могу отображать ячейку за ячейкой …
12 окт '18 в 06:59
0 ответов

Объединить две соседние строки для всех данных в 1 столбце таблицы

Я загрузил источник данных в виде файла pdf в таблице, и он читает таблицу и отображает ее в таблице. Один из столбцов в таблице PDF был разбит на две строки. Как я могу объединить две строки, чтобы разделить столбец будет в одной строке, это присут…
16 ноя '18 в 02:00
0 ответов

Как мне отформатировать / пометить доступную таблицу PDF, которая занимает несколько страниц по горизонтали?

Я отвечаю за исправление PDF, созданного сторонней проприетарной системой, для которой у меня нет доступа к макету или дизайну. Цель состоит в том, чтобы пройти проверку доступности Adobe Acrobat DC перед публикацией. Некоторые таблицы в формате PDF…
01 апр '19 в 20:57
1 ответ

Получить абсолютную ширину из столбца PdfPTable (iText)

Как получить абсолютную ширину столбца из iText, когда столбцы таблицы указаны с их относительным размером? Что я пробовал Я указал 3 столбца с их относительной шириной как float: PdfPCell cell2; PdfPTable table2 = new PdfPTable(new float[]{(float) …
04 мар '19 в 06:37
1 ответ

Есть ли возможность конвертировать изображения PDF в пакет PDFTables

Я пытаюсь конвертировать PDF, используя пакет PDFtables, который представляет собой изображение текста, то есть когда мы открываем PDF в средстве просмотра PDF, и мы не можем выделить слова или строки курсором. Есть ли какое-либо решение для преобра…
06 май '19 в 09:44
0 ответов

Как сохранить два ряда вместе, но разделить второй ряд?

Я создаю текстовый документ с динамическим текстом и таблицами с заголовками. Но иногда мне нужно сохранить заголовок вместе с первой строкой таблицы, но разделить эту таблицу на следующую страницу. КОД 1 'Table with data pdfTable1.SplitLate = False…
10 май '19 в 13:00
0 ответов

Извлечение данных из PDF-полей в R

У PDF есть коробки с данными. Я хочу извлечь все данные из этих блоков в R. Я хочу, чтобы это было извлечено без использования OCR. Я пробовал пакет Tabulizer, но он дает неорганизованные результаты, что делает невозможным его извлечение. report &lt…
25 июл '19 в 13:48
0 ответов

Как пользоваться ручной нумерацией таблиц rmarkdown

Мне нужно использовать нумерацию таблиц в Appenix моего документа. Я хочу запретить автоматическую нумерацию таблиц rmarkdown и использовать свою; скажите A1, A2, … вместо этого.
06 ноя '19 в 23:56
1 ответ

iText 7 предотвращает разделение ячейки при разрыве страницы

Я пытаюсь создать PDF-файл с таблицей, содержащей ячейки с фигурами.Я отменяюCellRenderer класса и внутри нового класса я рисую фигуры в DrawableCellRenderer#draw.Иногда, когда таблицу необходимо разделить, а в ячейке есть диапазон строк, я хочу пре…
13 ноя '19 в 14:30
0 ответов

Как проверить формат данных с помощью glob в Python?

У меня есть список разных файлов в моей папке, и эти файлы имеют несколько форматов, например PDF, txt, Docx и HTML. Я хочу проверить формат файлов в python. Вот моя попытка import os import pdftables_api import glob path = r"myfolder\*" files = glo…
28 мар '20 в 04:59
1 ответ

Как выровнять несколько таблиц, добавленных в одну таблицу, с помощью itextsharp в с #?

Я создал таблицу с 3 столбцами и еще одну таблицу с 6 столбцами, которая затем добавляется в другую таблицу, чтобы превратить ее в одну таблицу. Я хочу выровнять второй столбец таблицы из 3 столбцов и вторые столбцы таблицы из 6 столбцов следующим о…
25 май '20 в 23:51
0 ответов

Проблема с библиотекой табулятора в r, распознающей не буквенно-цифровые (символьные) символы в таблице в PDF

Я использую библиотеку табулятора в r для захвата данных из таблицы, расположенной внутри PDF на общедоступном веб-сайте (https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf). Пример таблицы, ко…
1 ответ

Как создать таблицу itext с ячейками в указанных пользователем позициях

У меня есть требование добавить изображения в таблицу iText PDF, но положение ячеек (состоящих из изображений) будет зависеть от индексов (номеров строк и столбцов), заданных пользователем. В этой таблице также могут быть пустые ячейки между ними, е…
25 май '21 в 21:51
0 ответов

PDFTables .NET Как вставить данные потока PDF, а не файл

Я использую PDFTables для преобразования файлов PDF в Excel. Пример C#, который я использую, вводит файл PDF непосредственно в параметры URL-адреса POST. Поскольку я использую облачное хранилище aws S3 для хранения файлов PDF, я хотел бы вставлять д…
09 июн '21 в 22:22
1 ответ

Камелот Не удается извлечь всю таблицу

Я использую Camelot для извлечения табличной информации из PDF-файла, который я преобразовал из отсканированного в доступный для поиска с помощью ocrmypdf(500dpi). Камелот, похоже, может идентифицировать таблицу и извлечь большую часть данных в табл…
0 ответов

Извлечение табличных данных PDF с помощью pdftabextract

Я пытаюсь извлечь табличные данные из текстовых PDF-файлов. PDF-файлы бывают разных форматов, и мне нужно найти общее решение. Для этой задачи я наткнулся на одну библиотеку под названием «pdftabextract». Но он работает с отсканированными документам…
12 июл '21 в 12:53
0 ответов

Проблема с разрывом ячейки таблицы iTextsharp

Я работаю над задачей создания PDF, но у меня проблема с ячейками PDF. Вот мой код: public string SaveMinute(WrapperModel obj) { string fileName = DateTime.Now.ToString("ddMMyyyyhhmmss") + ".pdf"; var objHelper = new PdfHelper(); using (Document pdf…
12 июл '21 в 13:25
1 ответ

Ячейки таблицы Pdf с автоматическим разбиением на линии PdfFileWriter c#

Я пишу программу, которая извлекает данные Cutomer из файла SQLite и сохраняет их в файле PDF в таблице PdfTable, например: PdfContents contentsTable = new PdfContents(page); PdfTable table = new PdfTable(page, contentsTable, ArialNormal, fontSize);…
05 ноя '21 в 14:30