Описание тега pdftotext
Pdftotext converts Portable Document Format (PDF) files to plain text.
0
ответов
Как разобрать pdf в json/txt в angular / node.js?
Я хочу прочитать PDF-файл из углового кода. есть ли пакет или библиотека? Угловая версия: 4/5 Результат / вывод: Json или текстовый формат Есть ли какой-нибудь пакет или библиотека в узле.js? если да, пожалуйста, дайте мне знать. Заранее спасибо!!!
30 мар '18 в 10:46
3
ответа
Извлечение текстового содержимого из PDF
Я извлекал текст из PDF-файлов, используя pdftotext. Я также сделал это с Ghostscript. Недавно провайдер коммунальных услуг изменил свои PDF-файлы, поэтому их часть не извлекается. В частности, мне не хватает даты и общей суммы оплаты. Когда я откры…
20 фев '13 в 17:26
0
ответов
Python - возврат только из pdf в txt (CID: номер)
У меня есть 5 pdf-файлов, которые я хочу конвертировать в txt-файлы. 3 файла работают нормально. Остальные 2 возвращаются только (CID: номер), например: (Чид:47)(чид:57)(чид:3)(чид:69)(чид:72) Я написал свой код с помощью pdfminer. Кто-нибудь знает,…
11 ноя '18 в 20:19
3
ответа
Как я могу определить, какие аргументы принимает функция Python?
Выполнение следующего кода: pdf = pdftotext.PDF(f,layout='raw') произвел эту ошибку: 'layout' - недопустимый аргумент ключевого слова для этой функции Есть ли способ перечислить, какие аргументы будет принимать эта и любая другая функция?
12 ноя '18 в 07:04
1
ответ
Конвертировать pdf в текст используя php и drupal
Я использую этот код для преобразования PDF в текст, он работает нормально, но он не поддерживает шведский символ, например: correect swedish word = incorrect word Förnamn = Fšrnamn, Försäljningsdatum = FšrsŠljningsdatum, varumärket = varumŠrket, te…
07 дек '15 в 13:53
2
ответа
Установка pdftotext в Windows (для использования с пакетом R, tm)
У меня проблемы с использованием пакета R, 'tm' для чтения в файлах.pdf. В частности, я пытаюсь запустить следующий код: library(tm) filename = "myfile.pdf" tmp1 <- readPDF(PdftotextOptions="-layout") doc <- tmp1(elem=list(uri=filename),langua…
23 мар '16 в 11:49
1
ответ
PDFtoTEXT не преобразует текст в кодировке UTF-8 полностью, особенно акцентированные символы
Я работаю над проектом, который требует конвертировать PDF в текст. PDF содержит шрифты хинди (Mangal, чтобы быть определенным) наряду с английским языком. 100% английского языка конвертируется в текст. Конверсия части хинди составляет около 95%. Ос…
08 сен '15 в 15:51
0
ответов
Конвертирование pdf в строку в приложении target c cocoa
Я работаю над проектом, где я пытаюсь прочитать локально сохраненный файл PDF и преобразовать его в NSString. Я пытался использовать это: NSString *path=[[NSBundle mainBundle]pathForResource:@"pdfName" ofType:@"pdf"]; NSData *pdfData=[[NSData alloc]…
14 дек '15 в 09:55
0
ответов
pdftotext получить информацию о шрифте (семейство шрифтов, стиль, размер)
Я использую "pdftotext -bbox file.pdf"чтобы преобразовать pdf подать в HTML, Вот пример строки из вывода: <word xMin="351.852025" yMin="42.548936" xMax="365.689478" yMax="47.681498">foo</word> Есть ли способ получить информацию о шрифте …
06 май '18 в 11:23
2
ответа
Извлечение текста с использованием столбцов PdfMiner и PyPDF2 Merges
Я пытаюсь проанализировать текст PDF-файла с помощью pdfMiner, но извлеченный текст сливается. Я использую PDF-файл по следующей ссылке. PDF файл Я хорош с любым типом вывода (файл / строка). Вот код, который возвращает извлеченный текст в виде стро…
01 апр '13 в 04:54
3
ответа
Не могу прочитать PDF-файл
Я пытаюсь создать приложение, которое может читать файлы PDF. Я использую это руководство: http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET но не понимаю, что означает "файл" - это полный URL-адрес вашего компьютера. Пото…
17 апр '13 в 11:08
0
ответов
Создание циклических операторов для преобразования нескольких PDF в несколько текстов с использованием Python
Приведенный ниже код Python читает файл PDF и создает текстовый файл. Для того же САМОГО / ПОХОЖЕГО кода / логики мне нужно перейти в папку, взять все PDF (несколько PDF) и преобразовать в текстовые файлы. Например: если в папке присутствует 10 PDF,…
05 янв '18 в 05:08
3
ответа
Tabula-py для извлечения таблицы без полей
Может кто-нибудь предложить мне, как извлечь табличные данные из PDF-файла с помощью программы Python/ Java для приведенной ниже таблицы без полей, представленной в файле PDF?
17 июл '18 в 09:04
2
ответа
pdftotext все файлы в подкаталогах, если он еще не существует
Мне нужно pdftotext все файлы в подкаталоге, если текстовый файл еще не существует. Я пробовал: find . -name "*.pdf" | while read file; if [ ! -e $file.txt ] do pdftotext $file; done; но получите: -bash: синтаксическая ошибка рядом с неожиданным ток…
20 май '17 в 14:16
2
ответа
Синтаксический анализ страницы индекса в учебнике PDF с Python
Я должен извлечь текст из страниц PDF, как это с отступом в файл CSV. Индексная страница из учебника PDF: Я должен разделить текст на иерархию типов классов и подклассов вместе с номерами страниц. Например, на изображениисервер приложений является к…
03 мар '18 в 18:35
1
ответ
PDF соскоб с использованием модуля textract
У меня есть приложение Node.js, которое должно сделать некоторые онлайн-просмотр PDF. Это кусок кода: var textract = require('textract'); const util = require('util'); var methods = {}; var urls = [ {year: '2016', link: 'http://www.url2016.pdf'}, {y…
24 апр '18 в 13:16
3
ответа
Конвертировать PDF в текст без pdftotext?
Я должен конвертировать PDF-файлы в текст, и в настоящее время я использую pdftotext.exe, Это иногда портит полученный текст, поэтому я не могу его использовать. Есть ли еще один бесплатный инструмент, который я могу вызвать из другой программы? Я б…
17 янв '12 в 08:40
0
ответов
Печать только половины текста из PDF
Я печатаю все тексты из pdf-файлов, но кажется, что он печатает только текст из первого pdf-файла. Также для первого pdf-файла он печатает только небольшую часть. Я делаю это внутри цикла, может кто-нибудь сказать мне что я делаю не так вот мой код …
17 июл '14 в 08:39
1
ответ
Как автоматически проверять PDF-файлы и проверять их на наличие ошибок?
При использовании make-файла для создания PDF-файлов из LaTeX или MarkDown с помощью pandoc, как можно автоматически проверить полученные PDF-файлы на наличие ошибок, которые могут не найти кодовый / текстовый редактор?
29 июн '16 в 16:38
1
ответ
Исключение iTextSharp "Пусто в стеке" при получении текста со страницы PDF
Я пытаюсь перебрать каждую страницу в PDF, чтобы найти конкретные ключевые слова. Код отлично работает на других PDF-файлах, кроме этого Мой код Using oReader As New pdf.PdfReader(pdfFilename) For pCurrent = oReader.NumberOfPages To 1 Step -1 Dim st…
18 июн '17 в 04:03