Описание тега pdfparser
автономная библиотека PHP, предоставляет различные инструменты для извлечения данных из файла PDF
0
ответов
PDFplumber пароль и check_extractable
Я использую библиотеку pdfplumber для анализа pdf. Способ доступа к pdf-файлу - "pdfplumber.open(path)". Может кто-нибудь, пожалуйста, помогите мне, как передать пароль и параметры check_extractable в этом.
22 фев '19 в 10:45
1
ответ
pdfparser от pdfminer: PDFException: PDFDocument не инициализирован
Я не понимаю эту ошибку. Я хочу открыть PDF и перебрать страницы, но я получаю это исключение, и я не могу найти много, погуглив его. Вот пример, который терпит неудачу from pdfminer.pdfparser import PDFParser, PDFDocument from os.path import basena…
08 фев '19 в 17:00
0
ответов
Конвертируйте PDF в txt, одновременно идентифицируя текст в файле.txt, что было подчеркнуто в формате PDF.
Я работаю над проектом Node.js. Мне было поручено преобразовать PDF-файлы в TXT-файлы. Первоначально я конвертировал файлы PDF в файлы.txt, используя пакет pdf-parse. Это было легко и сработало очень хорошо. Однако я только что узнал, что в PDF есть…
04 ноя '18 в 23:46
1
ответ
PdfParser в Codeigniter
Я пытаюсь использовать библиотеку PdfParser ( ссылка PDFparser) в Codeigniter, поэтому в первую очередь я скачал, распаковал и установил библиотеку в папку Third_party/vendor, дополнительно я скачал, распаковал и установил библиотеку tcpdf в той же …
26 окт '18 в 15:12
0
ответов
Продолжить сценарий после исключения PHP
Я использую PDFParser и обнаруживаю исключение, которое нарушает мой сценарий, даже если я помещаю его в try/catch блок, как показано ниже. Смысл, исключение получает echoЭд но "Caught exception: " часть нет. Я думал, что это именно то, что try/catc…
09 янв '18 в 17:20
0
ответов
Как разобрать pdf, содержащий таблицы, а также флажки в нем в Java?
У меня есть это требование, когда мне нужно проанализировать текст внутри структуры таблицы в PDF-файл, который согласуется с различными файлами. Таблица также содержит некоторые флажки, которые являются ничем иным, как квадратами, которые в противн…
12 авг '18 в 06:51
0
ответов
Недопустимое смещение строки '/Root' в проблеме FPDF FPDI Parser
У меня есть несколько файлов PDF одного пользователя. Итак, я дал возможность нашему пользователю видеть весь его документ в одном файле PDF. Для этого я использую FPDI pdf parser, чтобы объединить все pdf файлы в один файл и затем показать пользова…
30 янв '18 в 11:43
0
ответов
Поиск содержимого pdf файлов в большой папке с использованием библиотек php и pdf parser
Я использую парсер pdf для поиска в папке содержит много файлов pdf для поиска в содержимом файлов pdf. код работает нормально только для максимум 3 файлов с небольшими размерами: $keyword = "Calibri"; //the keyword is dynamic $dir = new DirectoryIt…
19 июл '18 в 11:41
0
ответов
Как разобрать pdf в селене
Я пытался прочитать PDF, который открывается в браузере. через следующий код селена. URL pdfURL = new URL(driver.getCurrentUrl()); InputStream is = pdfURL.openStream(); BufferedInputStream fileToParse= new BufferedInputStream(is); PDFParser pdfParse…
31 янв '19 в 12:40
1
ответ
Как читать из PDF с помощью веб-драйвера Selenium и Java
Я пытаюсь прочитать содержимое файла PDF с помощью Java-Selenium. Ниже мой код. getWebDriver - это пользовательский метод в рамках. Возвращает веб-драйвер. URL urlOfPdf = new URL(this.getWebDriver().getCurrentUrl()); BufferedInputStream fileToParse …
04 июл '18 в 10:19
0
ответов
Получение пустого значения поля со списком из PDF-файла в Express JS
Я получаю пустое значение поля со списком из PDF-файла с помощью парсера 'pdf2json' в express.js. Значение в файле PDF, показывающее другую опцию внутри поля со списком, а также сохраняющее состояние выбора при сохранении файла, но когда я пытаюсь п…
14 мар '18 в 13:12
0
ответов
Как получить извлечение текста PDF в том виде, в каком оно есть в его формате с линией перерыва с помощью pdf parser/ parser class ИСПОЛЬЗУЯ PHP
include 'vendor/autoload.php'; // Parse pdf file and build necessary objects. $parser = new \Smalot\PdfParser\Parser(); $pdf = $parser->parseFile('OOP.pdf'); $text = $pdf->(); echo $text это код, который дает мне вывод, как это: но мне нужно,…
17 янв '18 в 13:13
0
ответов
TCPDF_PARSER ОШИБКА: недопустимая ссылка на объект: массив
Я использую библиотеку PDFparser ( https://github.com/smalot/pdfparser), чтобы конвертировать PDF-файл в текст. Когда я пытаюсь конвертировать файл на локальном веб-сервере, он анализирует ОК. Когда я пытаюсь конвертировать файл на удаленном веб-сер…
04 фев '18 в 03:02
0
ответов
Как читать и извлекать содержимое PDF в Angular 6?
Я хочу иметь возможность импортировать файл PDF из локальной файловой системы. Чтобы проверить файл, необходимо проверить определенное содержимое из PDF. Для этого мне нужно иметь возможность читать и извлекать содержимое из файла PDF. Я использую A…
11 ноя '18 в 14:17
0
ответов
smalot/pdfparser не включая пустые столбцы
Я анализирую PDF-файл с табличной структурой через smalot/PdfParser. Код довольно прост, как показано ниже. // Include Composer autoloader if not already done. include 'vendor/autoload.php'; // Parse pdf file and build necessary objects. $parser = n…
20 май '18 в 17:56
2
ответа
Как получить текстовые формы защищенные от копирования PDF-файлы или имеющие разные шрифты?
Я использую pdfparser для копирования текста из PDF-файлов, но некоторые PDF-файлы защищены от копирования или имеют разные шрифты, так что pdfparser не работает для этого, возможно ли получить текст из PDF-файла, защищенного от копирования? Это мой…
19 май '19 в 10:43
0
ответов
Тика и PDFBox неправильно добавляют новые строки в PDF
Я обнаружил проблему при разборе PDF-документов, отправленных на веб-службу для NLP. Мы используем Tika 1.19.1 для извлечения простого текста. Некоторые люди пишут свои документы неправильно или неправильно акцентированы (на самом деле, большинство …
18 мар '19 в 21:20
0
ответов
Получить тот же мусор при извлечении текста хинди / девнагри из PDF pdftotext или pdfparser
Я использую php Pdfparser и pdftotext для извлечения текста хинди / девнагри из PDF. Но я получаю тот же мусор или мусор, используя оба вышеупомянутых. Хлам, например: f{kfrt114; rhanz feJ dk tUe lu~ 1977 esa v;ksè;k (mÙkj izns"k) esa gqvkA mUgksaus…
18 апр '19 в 05:47
0
ответов
Прочитать конкретное значение на основе имени метки из PDF в C#
У меня есть asp.net Core 2.0 C# приложение, которое читает / анализирует файл PDF и получает текст. В этом я хочу прочитать конкретные значения, которые имеют конкретное имя метки. Вы можете увидеть изображение ниже, я хочу получить значение 171857 …
16 май '19 в 07:08
0
ответов
Удалите верхние и нижние колонтитулы из текстового вывода с помощью Smalot\PdfParser
Я устанавливаю скрипт на основе PDFparser. Это работает для большинства типов PDF для меня. Мне удалось вывести текст в том же формате, в котором он отображается в PDF $text .= nl2br($page->getText()); Теперь мне нужно выяснить, как удалить верхн…
26 май '19 в 22:10