Описание тега pdftotext

Описание тега Вопросы с тегом

Pdftotext converts Portable Document Format (PDF) files to plain text.

0 ответов

Как получить код символа (Unicode) составного глифа из файла шрифта?

Это мой первый опыт работы со шрифтами, поэтому, пожалуйста, имейте в виду жаргон. Что я делаю: мне нужно извлечь текст из PDF-файлов, содержащих многоязычные символы (гуджарати, в данном контексте), для которых я использую Python PDFMiner. Где я за…

26 ноя '13 в 09:26

1 ответ

Как извлечь текст из файла PostScript, сгенерированного драйвером печати Win8

Я могу извлечь текст из файла PostScript, сгенерированного драйвером печати Win7, но не из Win8. Например, создав некоторый текст в "Блокноте" Windows, сказав "Блокноту печатать" с помощью драйвера печати HP PostScript, и сказав драйверу печати о вы…

ghostscript postscript pdftotext

27 мар '17 в 20:52

2 ответа

Использование subprocess.popen в python с файлом os.tmp при передаче необязательных параметров

Я пишу программу на Python в Linux и отчасти использую исполняемый файл pdftotext для преобразования PDF-текста. Код, который я сейчас использую, приведен ниже. pdfData = currentPDF.read() tf = os.tmpfile() tf.write(pdfData) tf.seek(0) out, err = su…

python linux pdftotext

09 окт '10 в 09:42

0 ответов

pdftotext странные символы в качестве вывода

Я пытаюсь использовать pdftotext для преобразования файлов.pdf в текст для дальнейшей обработки файлов в python, но у меня возникает следующая проблема: Это работает для некоторых файлов.pdf, хотя мой вывод для некоторых файлов выглядит (что неправи…

pdf pdftotext pdf-conversion

13 май '15 в 10:35

1 ответ

Google Cloud Vision API PDF для извлечения текста

Я пытаюсь извлечь текст из PDF-файла (изображение, преобразованное в PDF-файл), используя код Python, предоставленный в документации Google https://cloud.google.com/vision/docs/pdf. Я создал ключ учетной записи службы и использую его для аутентифика…

ocr google-cloud-vision google-vision pdftotext

30 авг '18 в 08:56

5 ответов

Как ждать потока, чтобы закончить трубопровод? (Nodejs)

У меня есть массив обещаний цикла for, поэтому я использовал Promise.all, чтобы просмотреть их, а затем вызвал их. let promises = []; promises.push(promise1); promises.push(promise2); promises.push(promise3); Promise.all(promises).then((responses) =…

node.js asynchronous promise pipe pdftotext

15 июн '16 в 13:38

0 ответов

Допустимый размер памяти 134217728 байт при использовании библиотеки PdfParser

Я пытаюсь извлечь данные из PDF-файлов с помощью библиотеки PdfParser. Когда я попробовал это с парой больших и умеренно сложных файлов PDF, это дало мне ошибку: допустимый объем памяти 134217728 байт Мне нужно какое-то постоянное решение, либо библ…

php laravel out-of-memory pdftotext

05 авг '17 в 14:26

2 ответа

Как объединить битый текст из списка и добавить в словарь?

Со ссылкой на модуль Python для преобразования PDF в текстовую запись, файл PDF очищается и данные извлекаются. При очистке данные разбиваются на две отдельные переменные. Как я могу объединить эти данные и извлечь их как словарь?Например content = …

python list dictionary pdftotext

13 авг '18 в 06:56

1 ответ

Как правильно перебирать газетные PDF-файлы

Я начинаю думать, что невозможно делать то, что я хочу, но я просто подумала, что спрошу здесь, прежде чем сдаться. У меня есть почти 200 архивных PDF-файлов газеты, которые я хотел бы проанализировать. Однако я хотел бы провести этот анализ специал…

python pdf pdfbox scrape pdftotext

14 июн '16 в 22:48

5 ответов

Извлечение PDF в текст в nodejs без зависимостей ОС

Есть ли способ извлечь текст из PDF-файлов в nodejs без каких-либо зависимостей ОС (например, pdf2text или xpdf в Windows)? Я не смог найти никаких "нативных" pdf-пакетов в nodejs. Они всегда являются оболочкой / утилитой поверх существующей команды…

node.js pdf pdftotext

09 июн '15 в 13:38

7 ответов

Как извлечь данные таблицы из PDF как CSV из командной строки?

Я хочу извлечь все строки отсюда, игнорируя заголовки столбцов, а также заголовки всех страниц, т.е. Supported Devices, pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \ | sed '$d' \ | sed -r 's/ +/,/g; s/ //g' \ > output.csv Получен…

pdf grep pdftotext

18 май '15 в 18:28

1 ответ

R/R Studio: итерация папки PDF-файлов и преобразование в объекты R

Я использую RStudio версии 1.0.153. У меня есть папка примерно 30 PDF-файлов. Я хотел бы преобразовать их в соответствующие объекты в R как строки символов. У меня уже есть пакет pdftools, и он успешно конвертируется в объекты, я просто ищу способ, …

r pdf pdftotext

10 окт '17 в 01:23

0 ответов

Считайте файл pdf в текстовый файл на python 3, но он генерирует ошибку, подобную AttributeError: у объекта 'PDFObjRef' нет атрибута 'decode'. Помогите плз

Чтение pdf-файла для извлечения текста в python3 с использованием библиотеки pdfminer (я установил пакет с помощью pip install pdfminer.six) import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter impo…

python pdfminer pdftotext

23 май '18 в 08:33

0 ответов

Вставить PDF-изображения в текст, из pdftotext и pdfimages?

Я смог установить pdftotext утилита (поставляется с Linux, я думаю) для преобразования PDF в текст и извлечения изображений на Mac: # install poppler, xpdf, and imagemagick brew install imagemagick brew install poppler # not sure if this worked, had…

linux pdf unix text-extraction pdftotext

04 июл '12 в 00:42

1 ответ

IText читает PDF как pdftotext -layout?

Я ищу самый простой способ реализовать решение Java, которое тихо похоже на вывод pdftotext -layout FILE на машинах Linux. (И, конечно, это должно быть дешево) Я только что попробовал некоторые фрагменты кода IText, PDFBox и PDFTextStream. На сегодн…

java pdf itext pdftotext

22 июл '14 в 12:44

0 ответов

Как сгенерировать pdftotext так же, как pdf, сгенерированный xpdf в Laravel?

Я использую пространственную библиотеку Laravel для преобразования PDF в текст. Я использую Xpdf. Это мой код для преобразования pdftotext. $text1 = (new Pdf('C:\xpdf-tools-win-4.00\bin64\pdftotext.exe')) ->setPdf($dynamipathoffileuploadedbyuser)…

laravel pdftotext spatie xpdf

03 дек '18 в 04:12

1 ответ

Как я могу заставить Попплера использовать дополнительные данные кодирования в нестандартном каталоге?

Я тестирую pdftotext как часть poppler. Он был предварительно установлен на общем хосте, который я использую. Я хотел бы добавить данные о кодировке Попплера, которые содержат языковые пакеты, чтобы помочь в борьбе с ошибками, такими как "Missing la…

pdftotext poppler

27 апр '13 в 06:45

1 ответ

Используя R для преобразования структурированных данных из PDF в Excel, код работает, но необходимо уточнить

У меня есть несколько форм HICF (здравоохранение), и я хочу автоматически извлекать определенные поля. В настоящее время я могу иметь кучу PDF-файлов в каталоге. Код ссылается на них, берет все данные и разделяет каждую строку, где есть \n. Затем он…

r pdf data-extraction pdftotext

20 дек '18 в 23:31

1 ответ

Функция Linux PdfToText возвращает пустой текстовый файл

Я использовал функцию Linux для преобразования списка файлов PDF в текст. Команда: pdftotext -htmlmeta Это хорошо работает для большинства моих файлов. но для небольшого количества из них это возвращает мне пустой текстовый файл. Мои неуспешные PDF-…

linux pdftotext

14 янв '14 в 10:29

1 ответ

Специальные символы неправильно преобразованы из PDF в текст

У меня есть набор PDF-файлов, которые содержат символы Центральной Европы, такие как č, Ď, Š и так далее. Я хочу преобразовать их в текст, и я попытался pdftotext а также PDFBox через Apache Tika, но всегда некоторые из них не конвертируются правиль…

java pdfbox apache-tika pdftotext pdf-conversion

24 июн '13 в 09:27