Описание тега pdf-scraping
None Процесс получения данных из PDF, это включает открытие, чтение и анализ содержимого PDF для извлечения текста, изображений, метаданных или вложений
8
ответов
Как я могу конвертировать PDF в HTML?
Какие есть хорошие библиотеки на любом языке для конвертации PDF в HTML?
28 окт '09 в 17:52
3
ответа
Лучший язык для извлечения PDF-текста и табулирования его под заголовками строк
То, что я в основном хочу иметь, - это данные PDF под заголовками строк или, чтобы упростить то, что я говорю, я хочу создать базу данных из файла PDF. Каждый PDF состоит из 25-40 страниц в зависимости от количества избирателей. Страница PDF-файла, …
21 май '17 в 17:16
0
ответов
Как извлечь заголовки из документов?
Как можно автоматизировать извлечение соответствующего заголовка из заданного набора случайных документов (docx, pdf и т. Д.)? Точнее, признание того, что считается заголовком документа. Некоторые мысли: Интуитивно, вероятно, будет первой строкой в …
08 сен '17 в 09:32
1
ответ
Квази XML извлечение текста между 2 начальными тегами
Я собрал некоторые данные из PDF. Он имеет данные, которые почти как XML, и выглядит примерно так"(1) Data-field-1 (3) Data-field-3 (5) Data-field-5; (1) Data-field-1 (2) Data-field-2 (3) Data-field-3 (5) Data-field-5; ; (2) Data-field-2 (3) Data-fi…
08 авг '17 в 07:44
0
ответов
Точно так же, как удаление данных из Интернета, из html или json, можно ли сделать то же самое в pdfs, используя R?
Я хотел бы импортировать таблицы и подобные таблицам данные в научных статьях (pdf-файлы) в R. пример: http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq/inst/doc/DESeq.pdf Вот PDF, взятый в качестве примера здесь. Простые таблицы для…
14 ноя '14 в 04:23
0
ответов
Извлечение текста из раздела PDF с сохранением строк в одну строку
У меня есть куча файлов PDF, и мне нужно извлечь из них некоторую информацию. "Раздел" имеет текст "Referências" и выглядит как на картинке ниже: Я пробовал много инструментов для извлечения текста, чтобы выполнить эту задачу, но проблема в том, что…
15 сен '18 в 22:21
1
ответ
Как скачать связанные PDF-файлы с сайта?
Я хочу скачать сотни PDF-документов с сайта. Я пробовал такие инструменты, как SiteSucker и аналогичные, но он не работает, потому что, кажется, существует некоторое "разделение" между файлами и страницей, которая ссылается на них. Я не знаю, как оп…
11 сен '14 в 09:56
7
ответов
Очистка больших таблиц PDF, которые охватывают несколько страниц
Я пытаюсь очистить таблицы PDF, которые охватывают несколько страниц. Я перепробовал много вещей, но лучшее, кажется, pdftotext -layout как советовано здесь. Проблема заключается в том, что с результирующим текстовым файлом нелегко работать, так как…
06 авг '13 в 10:58
0
ответов
Как я могу автоматизировать ежедневный отчет, извлекая данные из программного обеспечения, а затем отправлять его получателю по электронной почте каждый день?
Я почти знаком с программированием, но я все еще учусь правильно проектировать программу. Вот что я хочу сделать: МОЯ СИТУАЦИЯ: Я работаю в отеле. Каждый день программное обеспечение для регистрации, которое у нас есть, автоматически генерирует анал…
29 июл '16 в 22:03
0
ответов
Https SSL логин и PDF скачать
Я пишу для помощи в решении этой проблемы: подключитесь к сайту одного из наших поставщиков и автоматически загрузите счета в формате PDF. Я пробовал несколько способов: 1: Веб-браузер - я могу попасть на страницу со ссылками на PDF, но не могу сохр…
22 апр '12 в 12:52
1
ответ
Как очистить скачанный PDF-файл с помощью R
Недавно я начал изучать практику (и программирование в целом) и наткнулся на просмотр PDF. Каждый раз, когда я пытаюсь прочитать отсканированный PDF с помощью R, я не могу заставить его работать. Я пытался использовать функцию file.choose() безрезул…
07 июн '18 в 20:33
2
ответа
Как читать построчно в файле PDF и создать CSV
Вот мой pdf Я нашел это, и я использовал его, чтобы записать мой PDF. 6 BEDROOMS NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant Prop # Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park - Это довольно перепутано. Или это пот…
17 сен '14 в 15:56
1
ответ
Заголовки не извлекаются из PDF при извлечении данных таблицы из PDF с помощью camelot
Я использую Camelot для извлечения данных таблицы, однако заголовок не извлекается как часть PDF. Прикрепленная ниже целевая PDF-ссылка и целевая таблица находятся на страницах № 3 и 4, которые нужно извлечь. https://drive.google.com/file/d/1xniTIwp…
08 ноя '18 в 08:20
0
ответов
Как скачать pdf из предварительного просмотра, используя puppeteer
У кукловода я пытаюсь скачать счет. когда я нажимаю кнопку загрузки, открывается диалоговое окно предварительного просмотра. Есть ли способ сохранить PDF из окна предварительного просмотра? Содержимое внутри предварительного просмотра печати не совп…
22 июн '18 в 07:09
1
ответ
Как извлечь данные соответствующего столбца из PDF
PDF-файл содержит данные, разделенные строкой за строкой, и после строки есть таблица, которая содержит заголовок и соответствующее ему значение под ним, я не могу получить его упорядоченным образом, но вместо этого я получаю полный заголовок столбц…
31 дек '17 в 10:56
2
ответа
Python - Как преобразовать много отдельных PDF-файлов в текст?
Вопрос: Как я могу читать во многих PDF-файлах по одному и тому же пути, используя пакет Python "slate"? У меня есть папка с более чем 600 PDF-файлов. Я знаю, как использовать пакет Slate для преобразования отдельных PDF-файлов в текст, используя эт…
17 май '13 в 02:25
0
ответов
pdftotext получить информацию о шрифте (семейство шрифтов, стиль, размер)
Я использую "pdftotext -bbox file.pdf"чтобы преобразовать pdf подать в HTML, Вот пример строки из вывода: <word xMin="351.852025" yMin="42.548936" xMax="365.689478" yMax="47.681498">foo</word> Есть ли способ получить информацию о шрифте …
06 май '18 в 11:23
1
ответ
Именование одинаковых файлов xlsx с TRUE of FALSE, если на определенном листе присутствует символьная строка
Этот код читает файл xlsx и создает индивидуально именованные файлы на основе номера листа и значения, найденного в определенном месте (в данном случае temp[2,1]). Однако из-за того, что каждый файл и лист немного отличаются друг от друга, имена явл…
18 окт '18 в 15:51
1
ответ
Поиск слов в PDF/ на сайте
Какой алгоритм используется веб-браузерами и программами чтения PDF для поиска определенного слова в огромном текстовом документе? Чтобы уточнить, когда я читаю электронную книгу, нажимаю Ctrl-F и ввожу поисковый термин, он находит подходящие слова …
20 авг '15 в 18:16
1
ответ
PDF соскоб с использованием модуля textract
У меня есть приложение Node.js, которое должно сделать некоторые онлайн-просмотр PDF. Это кусок кода: var textract = require('textract'); const util = require('util'); var methods = {}; var urls = [ {year: '2016', link: 'http://www.url2016.pdf'}, {y…
24 апр '18 в 13:16