Описание тега pdftotext
Pdftotext converts Portable Document Format (PDF) files to plain text.
0
ответов
Как получить код символа (Unicode) составного глифа из файла шрифта?
Это мой первый опыт работы со шрифтами, поэтому, пожалуйста, имейте в виду жаргон. Что я делаю: мне нужно извлечь текст из PDF-файлов, содержащих многоязычные символы (гуджарати, в данном контексте), для которых я использую Python PDFMiner. Где я за…
26 ноя '13 в 09:26
1
ответ
Как извлечь текст из файла PostScript, сгенерированного драйвером печати Win8
Я могу извлечь текст из файла PostScript, сгенерированного драйвером печати Win7, но не из Win8. Например, создав некоторый текст в "Блокноте" Windows, сказав "Блокноту печатать" с помощью драйвера печати HP PostScript, и сказав драйверу печати о вы…
27 мар '17 в 20:52
2
ответа
Использование subprocess.popen в python с файлом os.tmp при передаче необязательных параметров
Я пишу программу на Python в Linux и отчасти использую исполняемый файл pdftotext для преобразования PDF-текста. Код, который я сейчас использую, приведен ниже. pdfData = currentPDF.read() tf = os.tmpfile() tf.write(pdfData) tf.seek(0) out, err = su…
09 окт '10 в 09:42
0
ответов
pdftotext странные символы в качестве вывода
Я пытаюсь использовать pdftotext для преобразования файлов.pdf в текст для дальнейшей обработки файлов в python, но у меня возникает следующая проблема: Это работает для некоторых файлов.pdf, хотя мой вывод для некоторых файлов выглядит (что неправи…
13 май '15 в 10:35
1
ответ
Google Cloud Vision API PDF для извлечения текста
Я пытаюсь извлечь текст из PDF-файла (изображение, преобразованное в PDF-файл), используя код Python, предоставленный в документации Google https://cloud.google.com/vision/docs/pdf. Я создал ключ учетной записи службы и использую его для аутентифика…
30 авг '18 в 08:56
5
ответов
Как ждать потока, чтобы закончить трубопровод? (Nodejs)
У меня есть массив обещаний цикла for, поэтому я использовал Promise.all, чтобы просмотреть их, а затем вызвал их. let promises = []; promises.push(promise1); promises.push(promise2); promises.push(promise3); Promise.all(promises).then((responses) =…
15 июн '16 в 13:38
0
ответов
Допустимый размер памяти 134217728 байт при использовании библиотеки PdfParser
Я пытаюсь извлечь данные из PDF-файлов с помощью библиотеки PdfParser. Когда я попробовал это с парой больших и умеренно сложных файлов PDF, это дало мне ошибку: допустимый объем памяти 134217728 байт Мне нужно какое-то постоянное решение, либо библ…
05 авг '17 в 14:26
2
ответа
Как объединить битый текст из списка и добавить в словарь?
Со ссылкой на модуль Python для преобразования PDF в текстовую запись, файл PDF очищается и данные извлекаются. При очистке данные разбиваются на две отдельные переменные. Как я могу объединить эти данные и извлечь их как словарь?Например content = …
13 авг '18 в 06:56
1
ответ
Как правильно перебирать газетные PDF-файлы
Я начинаю думать, что невозможно делать то, что я хочу, но я просто подумала, что спрошу здесь, прежде чем сдаться. У меня есть почти 200 архивных PDF-файлов газеты, которые я хотел бы проанализировать. Однако я хотел бы провести этот анализ специал…
14 июн '16 в 22:48
5
ответов
Извлечение PDF в текст в nodejs без зависимостей ОС
Есть ли способ извлечь текст из PDF-файлов в nodejs без каких-либо зависимостей ОС (например, pdf2text или xpdf в Windows)? Я не смог найти никаких "нативных" pdf-пакетов в nodejs. Они всегда являются оболочкой / утилитой поверх существующей команды…
09 июн '15 в 13:38
7
ответов
Как извлечь данные таблицы из PDF как CSV из командной строки?
Я хочу извлечь все строки отсюда, игнорируя заголовки столбцов, а также заголовки всех страниц, т.е. Supported Devices, pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \ | sed '$d' \ | sed -r 's/ +/,/g; s/ //g' \ > output.csv Получен…
18 май '15 в 18:28
1
ответ
R/R Studio: итерация папки PDF-файлов и преобразование в объекты R
Я использую RStudio версии 1.0.153. У меня есть папка примерно 30 PDF-файлов. Я хотел бы преобразовать их в соответствующие объекты в R как строки символов. У меня уже есть пакет pdftools, и он успешно конвертируется в объекты, я просто ищу способ, …
10 окт '17 в 01:23
0
ответов
Считайте файл pdf в текстовый файл на python 3, но он генерирует ошибку, подобную AttributeError: у объекта 'PDFObjRef' нет атрибута 'decode'. Помогите плз
Чтение pdf-файла для извлечения текста в python3 с использованием библиотеки pdfminer (я установил пакет с помощью pip install pdfminer.six) import io from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter impo…
23 май '18 в 08:33
0
ответов
Вставить PDF-изображения в текст, из pdftotext и pdfimages?
Я смог установить pdftotext утилита (поставляется с Linux, я думаю) для преобразования PDF в текст и извлечения изображений на Mac: # install poppler, xpdf, and imagemagick brew install imagemagick brew install poppler # not sure if this worked, had…
04 июл '12 в 00:42
1
ответ
IText читает PDF как pdftotext -layout?
Я ищу самый простой способ реализовать решение Java, которое тихо похоже на вывод pdftotext -layout FILE на машинах Linux. (И, конечно, это должно быть дешево) Я только что попробовал некоторые фрагменты кода IText, PDFBox и PDFTextStream. На сегодн…
22 июл '14 в 12:44
0
ответов
Как сгенерировать pdftotext так же, как pdf, сгенерированный xpdf в Laravel?
Я использую пространственную библиотеку Laravel для преобразования PDF в текст. Я использую Xpdf. Это мой код для преобразования pdftotext. $text1 = (new Pdf('C:\xpdf-tools-win-4.00\bin64\pdftotext.exe')) ->setPdf($dynamipathoffileuploadedbyuser)…
03 дек '18 в 04:12
1
ответ
Как я могу заставить Попплера использовать дополнительные данные кодирования в нестандартном каталоге?
Я тестирую pdftotext как часть poppler. Он был предварительно установлен на общем хосте, который я использую. Я хотел бы добавить данные о кодировке Попплера, которые содержат языковые пакеты, чтобы помочь в борьбе с ошибками, такими как "Missing la…
27 апр '13 в 06:45
1
ответ
Используя R для преобразования структурированных данных из PDF в Excel, код работает, но необходимо уточнить
У меня есть несколько форм HICF (здравоохранение), и я хочу автоматически извлекать определенные поля. В настоящее время я могу иметь кучу PDF-файлов в каталоге. Код ссылается на них, берет все данные и разделяет каждую строку, где есть \n. Затем он…
20 дек '18 в 23:31
1
ответ
Функция Linux PdfToText возвращает пустой текстовый файл
Я использовал функцию Linux для преобразования списка файлов PDF в текст. Команда: pdftotext -htmlmeta Это хорошо работает для большинства моих файлов. но для небольшого количества из них это возвращает мне пустой текстовый файл. Мои неуспешные PDF-…
14 янв '14 в 10:29
1
ответ
Специальные символы неправильно преобразованы из PDF в текст
У меня есть набор PDF-файлов, которые содержат символы Центральной Европы, такие как č, Ď, Š и так далее. Я хочу преобразовать их в текст, и я попытался pdftotext а также PDFBox через Apache Tika, но всегда некоторые из них не конвертируются правиль…
24 июн '13 в 09:27