Описание тега pdftotext

Описание тега Вопросы с тегом

Pdftotext converts Portable Document Format (PDF) files to plain text.

0 ответов

Как разобрать pdf в json/txt в angular / node.js?

Я хочу прочитать PDF-файл из углового кода. есть ли пакет или библиотека? Угловая версия: 4/5 Результат / вывод: Json или текстовый формат Есть ли какой-нибудь пакет или библиотека в узле.js? если да, пожалуйста, дайте мне знать. Заранее спасибо!!!

node.js angular pdftotext

30 мар '18 в 10:46

3 ответа

Извлечение текстового содержимого из PDF

Я извлекал текст из PDF-файлов, используя pdftotext. Я также сделал это с Ghostscript. Недавно провайдер коммунальных услуг изменил свои PDF-файлы, поэтому их часть не извлекается. В частности, мне не хватает даты и общей суммы оплаты. Когда я откры…

pdf ghostscript pdftotext

20 фев '13 в 17:26

0 ответов

Python - возврат только из pdf в txt (CID: номер)

У меня есть 5 pdf-файлов, которые я хочу конвертировать в txt-файлы. 3 файла работают нормально. Остальные 2 возвращаются только (CID: номер), например: (Чид:47)(чид:57)(чид:3)(чид:69)(чид:72) Я написал свой код с помощью pdfminer. Кто-нибудь знает,…

python-3.x pdfminer pdftotext

11 ноя '18 в 20:19

3 ответа

Как я могу определить, какие аргументы принимает функция Python?

Выполнение следующего кода: pdf = pdftotext.PDF(f,layout='raw') произвел эту ошибку: 'layout' - недопустимый аргумент ключевого слова для этой функции Есть ли способ перечислить, какие аргументы будет принимать эта и любая другая функция?

python function arguments pdftotext

12 ноя '18 в 07:04

1 ответ

Конвертировать pdf в текст используя php и drupal

Я использую этот код для преобразования PDF в текст, он работает нормально, но он не поддерживает шведский символ, например: correect swedish word = incorrect word Förnamn = Fšrnamn, Försäljningsdatum = FšrsŠljningsdatum, varumärket = varumŠrket, te…

php github drupal shared-libraries pdftotext

07 дек '15 в 13:53

2 ответа

Установка pdftotext в Windows (для использования с пакетом R, tm)

У меня проблемы с использованием пакета R, 'tm' для чтения в файлах.pdf. В частности, я пытаюсь запустить следующий код: library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),langua…

r tm pdftotext xpdf

23 мар '16 в 11:49

1 ответ

PDFtoTEXT не преобразует текст в кодировке UTF-8 полностью, особенно акцентированные символы

Я работаю над проектом, который требует конвертировать PDF в текст. PDF содержит шрифты хинди (Mangal, чтобы быть определенным) наряду с английским языком. 100% английского языка конвертируется в текст. Конверсия части хинди составляет около 95%. Ос…

unix pdftotext xpdf

08 сен '15 в 15:51

0 ответов

Конвертирование pdf в строку в приложении target c cocoa

Я работаю над проектом, где я пытаюсь прочитать локально сохраненный файл PDF и преобразовать его в NSString. Я пытался использовать это: NSString *path=[[NSBundle mainBundle]pathForResource:@"pdfName" ofType:@"pdf"]; NSData *pdfData=[[NSData alloc]…

objective-c cocoa pdftotext

14 дек '15 в 09:55

0 ответов

pdftotext получить информацию о шрифте (семейство шрифтов, стиль, размер)

Я использую "pdftotext -bbox file.pdf"чтобы преобразовать pdf подать в HTML, Вот пример строки из вывода: <word xMin="351.852025" yMin="42.548936" xMax="365.689478" yMax="47.681498">foo</word> Есть ли способ получить информацию о шрифте …

text-extraction pdftotext poppler pdf-scraping xpdf

06 май '18 в 11:23

2 ответа

Извлечение текста с использованием столбцов PdfMiner и PyPDF2 Merges

Я пытаюсь проанализировать текст PDF-файла с помощью pdfMiner, но извлеченный текст сливается. Я использую PDF-файл по следующей ссылке. PDF файл Я хорош с любым типом вывода (файл / строка). Вот код, который возвращает извлеченный текст в виде стро…

python pypdf pdftotext

01 апр '13 в 04:54

3 ответа

Не могу прочитать PDF-файл

Я пытаюсь создать приложение, которое может читать файлы PDF. Я использую это руководство: http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET но не понимаю, что означает "файл" - это полный URL-адрес вашего компьютера. Пото…

c# itextsharp pdftotext

17 апр '13 в 11:08

0 ответов

Создание циклических операторов для преобразования нескольких PDF в несколько текстов с использованием Python

Приведенный ниже код Python читает файл PDF и создает текстовый файл. Для того же САМОГО / ПОХОЖЕГО кода / логики мне нужно перейти в папку, взять все PDF (несколько PDF) и преобразовать в текстовые файлы. Например: если в папке присутствует 10 PDF,…

python pdf pdftotext

05 янв '18 в 05:08

3 ответа

Tabula-py для извлечения таблицы без полей

Может кто-нибудь предложить мне, как извлечь табличные данные из PDF-файла с помощью программы Python/ Java для приведенной ниже таблицы без полей, представленной в файле PDF?

python-3.x pdftotext tabula

17 июл '18 в 09:04

2 ответа

pdftotext все файлы в подкаталогах, если он еще не существует

Мне нужно pdftotext все файлы в подкаталоге, если текстовый файл еще не существует. Я пробовал: find . -name "*.pdf" | while read file; if [ ! -e $file.txt ] do pdftotext $file; done; но получите: -bash: синтаксическая ошибка рядом с неожиданным ток…

bash pdf while-loop find pdftotext

20 май '17 в 14:16

2 ответа

Синтаксический анализ страницы индекса в учебнике PDF с Python

Я должен извлечь текст из страниц PDF, как это с отступом в файл CSV. Индексная страница из учебника PDF: Я должен разделить текст на иерархию типов классов и подклассов вместе с номерами страниц. Например, на изображениисервер приложений является к…

python python-3.x python-2.7 pdfminer pdftotext

03 мар '18 в 18:35

1 ответ

PDF соскоб с использованием модуля textract

У меня есть приложение Node.js, которое должно сделать некоторые онлайн-просмотр PDF. Это кусок кода: var textract = require('textract'); const util = require('util'); var methods = {}; var urls = [ {year: '2016', link: 'http://www.url2016.pdf'}, {y…

web-scraping text-extraction pdftotext pdf-scraping

24 апр '18 в 13:16

3 ответа

Конвертировать PDF в текст без pdftotext?

Я должен конвертировать PDF-файлы в текст, и в настоящее время я использую pdftotext.exe, Это иногда портит полученный текст, поэтому я не могу его использовать. Есть ли еще один бесплатный инструмент, который я могу вызвать из другой программы? Я б…

pdf pdftotext

17 янв '12 в 08:40

0 ответов

Печать только половины текста из PDF

Я печатаю все тексты из pdf-файлов, но кажется, что он печатает только текст из первого pdf-файла. Также для первого pdf-файла он печатает только небольшую часть. Я делаю это внутри цикла, может кто-нибудь сказать мне что я делаю не так вот мой код …

php pdftotext

17 июл '14 в 08:39

1 ответ

Как автоматически проверять PDF-файлы и проверять их на наличие ошибок?

При использовании make-файла для создания PDF-файлов из LaTeX или MarkDown с помощью pandoc, как можно автоматически проверить полученные PDF-файлы на наличие ошибок, которые могут не найти кодовый / текстовый редактор?

regex makefile grep automated-tests pdftotext

29 июн '16 в 16:38

1 ответ

Исключение iTextSharp "Пусто в стеке" при получении текста со страницы PDF

Я пытаюсь перебрать каждую страницу в PDF, чтобы найти конкретные ключевые слова. Код отлично работает на других PDF-файлах, кроме этого Мой код Using oReader As New pdf.PdfReader(pdfFilename) For pCurrent = oReader.NumberOfPages To 1 Step -1 Dim st…

.net pdf itext pdftotext

18 июн '17 в 04:03