Описание тега pdfparser

автономная библиотека PHP, предоставляет различные инструменты для извлечения данных из файла PDF
0 ответов

PDFplumber пароль и check_extractable

Я использую библиотеку pdfplumber для анализа pdf. Способ доступа к pdf-файлу - "pdfplumber.open(path)". Может кто-нибудь, пожалуйста, помогите мне, как передать пароль и параметры check_extractable в этом.
22 фев '19 в 10:45
1 ответ

pdfparser от pdfminer: PDFException: PDFDocument не инициализирован

Я не понимаю эту ошибку. Я хочу открыть PDF и перебрать страницы, но я получаю это исключение, и я не могу найти много, погуглив его. Вот пример, который терпит неудачу from pdfminer.pdfparser import PDFParser, PDFDocument from os.path import basena…
08 фев '19 в 17:00
0 ответов

Конвертируйте PDF в txt, одновременно идентифицируя текст в файле.txt, что было подчеркнуто в формате PDF.

Я работаю над проектом Node.js. Мне было поручено преобразовать PDF-файлы в TXT-файлы. Первоначально я конвертировал файлы PDF в файлы.txt, используя пакет pdf-parse. Это было легко и сработало очень хорошо. Однако я только что узнал, что в PDF есть…
04 ноя '18 в 23:46
1 ответ

PdfParser в Codeigniter

Я пытаюсь использовать библиотеку PdfParser ( ссылка PDFparser) в Codeigniter, поэтому в первую очередь я скачал, распаковал и установил библиотеку в папку Third_party/vendor, дополнительно я скачал, распаковал и установил библиотеку tcpdf в той же …
26 окт '18 в 15:12
0 ответов

Продолжить сценарий после исключения PHP

Я использую PDFParser и обнаруживаю исключение, которое нарушает мой сценарий, даже если я помещаю его в try/catch блок, как показано ниже. Смысл, исключение получает echoЭд но "Caught exception: " часть нет. Я думал, что это именно то, что try/catc…
0 ответов

Как разобрать pdf, содержащий таблицы, а также флажки в нем в Java?

У меня есть это требование, когда мне нужно проанализировать текст внутри структуры таблицы в PDF-файл, который согласуется с различными файлами. Таблица также содержит некоторые флажки, которые являются ничем иным, как квадратами, которые в противн…
12 авг '18 в 06:51
0 ответов

Недопустимое смещение строки '/Root' в проблеме FPDF FPDI Parser

У меня есть несколько файлов PDF одного пользователя. Итак, я дал возможность нашему пользователю видеть весь его документ в одном файле PDF. Для этого я использую FPDI pdf parser, чтобы объединить все pdf файлы в один файл и затем показать пользова…
30 янв '18 в 11:43
0 ответов

Поиск содержимого pdf файлов в большой папке с использованием библиотек php и pdf parser

Я использую парсер pdf для поиска в папке содержит много файлов pdf для поиска в содержимом файлов pdf. код работает нормально только для максимум 3 файлов с небольшими размерами: $keyword = "Calibri"; //the keyword is dynamic $dir = new DirectoryIt…
19 июл '18 в 11:41
0 ответов

Как разобрать pdf в селене

Я пытался прочитать PDF, который открывается в браузере. через следующий код селена. URL pdfURL = new URL(driver.getCurrentUrl()); InputStream is = pdfURL.openStream(); BufferedInputStream fileToParse= new BufferedInputStream(is); PDFParser pdfParse…
31 янв '19 в 12:40
1 ответ

Как читать из PDF с помощью веб-драйвера Selenium и Java

Я пытаюсь прочитать содержимое файла PDF с помощью Java-Selenium. Ниже мой код. getWebDriver - это пользовательский метод в рамках. Возвращает веб-драйвер. URL urlOfPdf = new URL(this.getWebDriver().getCurrentUrl()); BufferedInputStream fileToParse …
0 ответов

Получение пустого значения поля со списком из PDF-файла в Express JS

Я получаю пустое значение поля со списком из PDF-файла с помощью парсера 'pdf2json' в express.js. Значение в файле PDF, показывающее другую опцию внутри поля со списком, а также сохраняющее состояние выбора при сохранении файла, но когда я пытаюсь п…
14 мар '18 в 13:12
0 ответов

Как получить извлечение текста PDF в том виде, в каком оно есть в его формате с линией перерыва с помощью pdf parser/ parser class ИСПОЛЬЗУЯ PHP

include 'vendor/autoload.php'; // Parse pdf file and build necessary objects. $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser->parseFile('OOP.pdf'); $text = $pdf->(); echo $text это код, который дает мне вывод, как это: но мне нужно,…
17 янв '18 в 13:13
0 ответов

TCPDF_PARSER ОШИБКА: недопустимая ссылка на объект: массив

Я использую библиотеку PDFparser ( https://github.com/smalot/pdfparser), чтобы конвертировать PDF-файл в текст. Когда я пытаюсь конвертировать файл на локальном веб-сервере, он анализирует ОК. Когда я пытаюсь конвертировать файл на удаленном веб-сер…
04 фев '18 в 03:02
0 ответов

Как читать и извлекать содержимое PDF в Angular 6?

Я хочу иметь возможность импортировать файл PDF из локальной файловой системы. Чтобы проверить файл, необходимо проверить определенное содержимое из PDF. Для этого мне нужно иметь возможность читать и извлекать содержимое из файла PDF. Я использую A…
11 ноя '18 в 14:17
0 ответов

smalot/pdfparser не включая пустые столбцы

Я анализирую PDF-файл с табличной структурой через smalot/PdfParser. Код довольно прост, как показано ниже. // Include Composer autoloader if not already done. include 'vendor/autoload.php'; // Parse pdf file and build necessary objects. $parser = n…
20 май '18 в 17:56
2 ответа

Как получить текстовые формы защищенные от копирования PDF-файлы или имеющие разные шрифты?

Я использую pdfparser для копирования текста из PDF-файлов, но некоторые PDF-файлы защищены от копирования или имеют разные шрифты, так что pdfparser не работает для этого, возможно ли получить текст из PDF-файла, защищенного от копирования? Это мой…
19 май '19 в 10:43
0 ответов

Тика и PDFBox неправильно добавляют новые строки в PDF

Я обнаружил проблему при разборе PDF-документов, отправленных на веб-службу для NLP. Мы используем Tika 1.19.1 для извлечения простого текста. Некоторые люди пишут свои документы неправильно или неправильно акцентированы (на самом деле, большинство …
18 мар '19 в 21:20
0 ответов

Получить тот же мусор при извлечении текста хинди / девнагри из PDF pdftotext или pdfparser

Я использую php Pdfparser и pdftotext для извлечения текста хинди / девнагри из PDF. Но я получаю тот же мусор или мусор, используя оба вышеупомянутых. Хлам, например: f{kfrt114; rhanz feJ dk tUe lu~ 1977 esa v;ksè;k (mÙkj izns"k) esa gqvkA mUgksaus…
18 апр '19 в 05:47
0 ответов

Прочитать конкретное значение на основе имени метки из PDF в C#

У меня есть asp.net Core 2.0 C# приложение, которое читает / анализирует файл PDF и получает текст. В этом я хочу прочитать конкретные значения, которые имеют конкретное имя метки. Вы можете увидеть изображение ниже, я хочу получить значение 171857 …
16 май '19 в 07:08
0 ответов

Удалите верхние и нижние колонтитулы из текстового вывода с помощью Smalot\PdfParser

Я устанавливаю скрипт на основе PDFparser. Это работает для большинства типов PDF для меня. Мне удалось вывести текст в том же формате, в котором он отображается в PDF $text .= nl2br($page->getText()); Теперь мне нужно выяснить, как удалить верхн…
26 май '19 в 22:10