Описание тега pdftools

Пакет R для извлечения текста, рендеринга и преобразования PDF-документов
1 ответ

Извлечь текст из двухколоночного PDF с R

У меня много PDF-файлов в формате двух колонок. Я использую pdftools пакет в R. Есть ли способ прочитать каждый PDF в соответствии с форматом двух столбцов, не обрезая каждый PDF отдельно? Каждый PDF состоит из выбираемого текста, а pdf_text Функция…
01 мар '17 в 20:54
1 ответ

Функция pdf_text не освобождает оперативную память (в Windows)

pdf_text() не освобождает ОЗУ. Каждый раз, когда функция запускается, она использует больше оперативной памяти и не освобождает ее до тех пор, пока не завершится сеанс R. Я на окнах. Минимальный пример # This takes ~60 seconds and uses ~500mb of RAM…
22 июн '19 в 16:04
0 ответов

Как создать подмножество и объединить несколько PDF-файлов в R

У меня есть конвейер анализа, который генерирует>50 выходных файлов PDF, и я хотел бы динамически взять 10 самых значимых (или все значимых, если <10) результатов и объединить их в один итоговый файл PDF. Кроме того, у меня есть файл аннотации с отд…
01 авг '19 в 21:34
0 ответов

Отсутствуют шрифты при конвертации локального pdf в png в приложении R Shiny

Я создаю блестящее приложение, которое должно конвертировать локально сохраненные PDF-файлы в PNG для отображения на странице. Я использую этот код для преобразования моего локального PDF в изображение PNG и рендеринга его на странице. library(pdfto…
29 июн '19 в 00:17
1 ответ

Я хочу преобразовать PDF в изображение, но мне нужно только одно выходное изображение, которое содержит все изображения и только векторную графику. Я не хочу текст

Подскажите, пожалуйста, как я могу этого добиться с помощью pdfbox? Я пробовал код ниже: try { PDDocument document = PDDocument.load(new File(inputFilePath)); PDFRenderer pdfRenderer = new PDFRenderer(document); for (int page = 0; page &lt; document…
10 авг '20 в 13:15
1 ответ

Как изменить сразу большое количество столбцов во фрейме данных в R с помощью пользовательской функции с pdftools и html-ссылками?

Извините, если он длинный или неправильно структурирован, это мой первый вопрос и первый крупный R-сторонний проект! Дайте мне знать, если мне нужно что-то изменить в своих вопросах в будущем. В настоящее время я работаю с некоторыми данными о город…
12 сен '19 в 00:36
0 ответов

Извлечение данных из PDF в CSV с помощью R

Я использовал этот код для извлечения данных из моего PDF-файла: tx &lt;- pdf_text("Name.pdf") tx2 &lt;- unlist(str_split(tx, "[\\r\\n]+")) tx3 &lt;- str_split_fixed(str_trim(tx2), "\\s{2,}", 5) write.csv(tx3, file="Path\\ds1.csv") Но здесь использу…
19 сен '19 в 14:23
0 ответов

индекс вне пределов. Извлечение PDF

Я извлекаю текст из PDF. Удаление знаков препинания и просмотр ключевых повторяющихся слов и того, как часто они появляются. library(pdftools) library(tm) setwd("S:/Shared Folders/Impact Investing/Investment/Scripts/PDF") files &lt;- list.files(patt…
26 сен '19 в 10:05
2 ответа

Одновременное извлечение нескольких фраз из нескольких PDF-файлов с помощью R

У меня есть список путей pdf в одной таблице, и я пытаюсь повторить приведенные ниже команды для остальных перечисленных pdf. В основном я конвертирую файл pdf в текст только для первой страницы файла, а затем использую команду keyword_search для за…
02 окт '19 в 16:05
1 ответ

Попытка извлечь подмножество страниц из каждого PDF-файла в каталог с 70 PDF-файлами

Я использую tidyverse, tidytext и pdftools. Я хочу разбирать слова в каталоге из 70 файлов PDF. Я использую эти инструменты, чтобы сделать это успешно, но приведенный ниже код захватывает все страницы вместо нужного мне подмножества. Мне нужно пропу…
18 окт '19 в 22:26
1 ответ

Сложная установка пакета R pdftools

Я пытаюсь установить пакет R "pdftools" и обнаруживаю следующее: In file included from libqpdf/Pl_DCT.cc:1: include/qpdf/Pl_DCT.hh:27:10: fatal error: 'jpeglib.h' file not found #include &lt;jpeglib.h&gt; ^ 1 error generated. make: *** [libqpdf/Pl_D…
20 окт '19 в 18:47
0 ответов

Функция / пакет R для стандартизации неправильно записанных слов?

Я отбрасываю / забираю сотни страниц замечательным pdftoolsпакет, включающий многократно имена одних и тех же лиц. В целом, извлечение работает хорошо, но в некоторых случаях имена распознаются неправильно, например, Simo вместо Simic. Итак, я получ…
28 ноя '19 в 20:24
0 ответов

Чтение блок-схемы в виде последовательного текста на языке R

У меня есть блок-схема в формате PDF. Я хочу извлечь текст как последовательный массив / вектор в R. Есть ли эффективный способ сделать это? В качестве примера https://i.stack.imgur.com/HdF61.png Я смотрю, можем ли мы иметь вектор 1. Start App 2. Sp…
12 дек '19 в 10:29
0 ответов

Создание списка ID# и номеров страниц из 8000+ страниц PDF, когда ключевые слова найдены на этих страницах в R

У меня есть PDF-файл с более чем 8000 страницами, который мне нужно, чтобы выяснить, как извлечь идентификационный номер и номер страницы для страниц, содержащих набор ключевых слов. Я бы хотел, чтобы продукт был таблицей, которая выглядит вот так. …
04 янв '20 в 20:25
1 ответ

Слишком длинное имя файла при использовании keyword_search для обнаружения PDF?

Я пытаюсь выполнить интеллектуальный анализ текста PDF-файла, выполнив поиск по определенным ключевым словам. Это мой код: library(pdftools) library(tidyverse) library(pdfsearch) UC_text &lt;- pdf_text("https://wilmar-iframe.todayir.com/attachment/2…
15 фев '20 в 04:32
1 ответ

Почему pdf_text из pdftools читает только первую страницу каждого элемента pdf в моем списке файлов pdf?

Я хотел бы создать фрейм данных со всем текстом и заголовком ech pdf из моего списка PDF-файлов. Я сделал один цикл for, но когда я открываю получившийся фрейм данных, я вижу, что не весь текст из каждого PDF-файла был преобразован в текст, а только…
15 фев '20 в 20:18
0 ответов

pdf_ocr_text() вылетает R

Я использую pdftools а также tesseractдля применения OCR к некоторым отчетам PDF, доступным в Интернете. Например, для использования страницы 2 этого отчета необходимо применить OCR. Однако, когда я пытаюсь использоватьpdf_ocr_text() на его URL-адре…
24 мар '20 в 03:07
1 ответ

Скребковый стол из PDF

Я пытаюсь очистить первую таблицу из нескольких очень похожих PDF-файлов. Пока я изолировал страницу таблицы, преобразовал таблицу в строку и загрузил ее вR. Кроме того, мне также удалось удалить части таблицы, которые меня не интересуют, а также за…
14 янв '20 в 12:29
1 ответ

как попасть на URL-адрес битового потока из href-ссылки html

Я использую rvest Rпакет для очистки PDF-файла с этой веб-страницы, но последняя ссылка отображается (как URL-адрес битового потока - что бы это ни было) после того, как я нажму наexposed url по имени AC1-96-21-01-2011.pdf. Заключительный файл pdf с…
15 янв '20 в 13:30
2 ответа

Эффективное использование функции pdf_data из пакета pdftools

Конечная цель - использовать пакет pdftools для эффективного перемещения по тысячам страниц документов pdf для последовательного и безопасного создания пригодного для использования фрейма данных / таблицы. Я попытался использовать пакет tabulizer и …
08 фев '20 в 16:46