Описание тега pdftools
Пакет R для извлечения текста, рендеринга и преобразования PDF-документов
1
ответ
Извлечь текст из двухколоночного PDF с R
У меня много PDF-файлов в формате двух колонок. Я использую pdftools пакет в R. Есть ли способ прочитать каждый PDF в соответствии с форматом двух столбцов, не обрезая каждый PDF отдельно? Каждый PDF состоит из выбираемого текста, а pdf_text Функция…
01 мар '17 в 20:54
1
ответ
Функция pdf_text не освобождает оперативную память (в Windows)
pdf_text() не освобождает ОЗУ. Каждый раз, когда функция запускается, она использует больше оперативной памяти и не освобождает ее до тех пор, пока не завершится сеанс R. Я на окнах. Минимальный пример # This takes ~60 seconds and uses ~500mb of RAM…
22 июн '19 в 16:04
0
ответов
Как создать подмножество и объединить несколько PDF-файлов в R
У меня есть конвейер анализа, который генерирует>50 выходных файлов PDF, и я хотел бы динамически взять 10 самых значимых (или все значимых, если <10) результатов и объединить их в один итоговый файл PDF. Кроме того, у меня есть файл аннотации с отд…
01 авг '19 в 21:34
0
ответов
Отсутствуют шрифты при конвертации локального pdf в png в приложении R Shiny
Я создаю блестящее приложение, которое должно конвертировать локально сохраненные PDF-файлы в PNG для отображения на странице. Я использую этот код для преобразования моего локального PDF в изображение PNG и рендеринга его на странице. library(pdfto…
29 июн '19 в 00:17
1
ответ
Я хочу преобразовать PDF в изображение, но мне нужно только одно выходное изображение, которое содержит все изображения и только векторную графику. Я не хочу текст
Подскажите, пожалуйста, как я могу этого добиться с помощью pdfbox? Я пробовал код ниже: try { PDDocument document = PDDocument.load(new File(inputFilePath)); PDFRenderer pdfRenderer = new PDFRenderer(document); for (int page = 0; page < document…
10 авг '20 в 13:15
1
ответ
Как изменить сразу большое количество столбцов во фрейме данных в R с помощью пользовательской функции с pdftools и html-ссылками?
Извините, если он длинный или неправильно структурирован, это мой первый вопрос и первый крупный R-сторонний проект! Дайте мне знать, если мне нужно что-то изменить в своих вопросах в будущем. В настоящее время я работаю с некоторыми данными о город…
12 сен '19 в 00:36
0
ответов
Извлечение данных из PDF в CSV с помощью R
Я использовал этот код для извлечения данных из моего PDF-файла: tx <- pdf_text("Name.pdf") tx2 <- unlist(str_split(tx, "[\\r\\n]+")) tx3 <- str_split_fixed(str_trim(tx2), "\\s{2,}", 5) write.csv(tx3, file="Path\\ds1.csv") Но здесь использу…
19 сен '19 в 14:23
0
ответов
индекс вне пределов. Извлечение PDF
Я извлекаю текст из PDF. Удаление знаков препинания и просмотр ключевых повторяющихся слов и того, как часто они появляются. library(pdftools) library(tm) setwd("S:/Shared Folders/Impact Investing/Investment/Scripts/PDF") files <- list.files(patt…
26 сен '19 в 10:05
2
ответа
Одновременное извлечение нескольких фраз из нескольких PDF-файлов с помощью R
У меня есть список путей pdf в одной таблице, и я пытаюсь повторить приведенные ниже команды для остальных перечисленных pdf. В основном я конвертирую файл pdf в текст только для первой страницы файла, а затем использую команду keyword_search для за…
02 окт '19 в 16:05
1
ответ
Попытка извлечь подмножество страниц из каждого PDF-файла в каталог с 70 PDF-файлами
Я использую tidyverse, tidytext и pdftools. Я хочу разбирать слова в каталоге из 70 файлов PDF. Я использую эти инструменты, чтобы сделать это успешно, но приведенный ниже код захватывает все страницы вместо нужного мне подмножества. Мне нужно пропу…
18 окт '19 в 22:26
1
ответ
Сложная установка пакета R pdftools
Я пытаюсь установить пакет R "pdftools" и обнаруживаю следующее: In file included from libqpdf/Pl_DCT.cc:1: include/qpdf/Pl_DCT.hh:27:10: fatal error: 'jpeglib.h' file not found #include <jpeglib.h> ^ 1 error generated. make: *** [libqpdf/Pl_D…
20 окт '19 в 18:47
0
ответов
Функция / пакет R для стандартизации неправильно записанных слов?
Я отбрасываю / забираю сотни страниц замечательным pdftoolsпакет, включающий многократно имена одних и тех же лиц. В целом, извлечение работает хорошо, но в некоторых случаях имена распознаются неправильно, например, Simo вместо Simic. Итак, я получ…
28 ноя '19 в 20:24
0
ответов
Чтение блок-схемы в виде последовательного текста на языке R
У меня есть блок-схема в формате PDF. Я хочу извлечь текст как последовательный массив / вектор в R. Есть ли эффективный способ сделать это? В качестве примера https://i.stack.imgur.com/HdF61.png Я смотрю, можем ли мы иметь вектор 1. Start App 2. Sp…
12 дек '19 в 10:29
0
ответов
Создание списка ID# и номеров страниц из 8000+ страниц PDF, когда ключевые слова найдены на этих страницах в R
У меня есть PDF-файл с более чем 8000 страницами, который мне нужно, чтобы выяснить, как извлечь идентификационный номер и номер страницы для страниц, содержащих набор ключевых слов. Я бы хотел, чтобы продукт был таблицей, которая выглядит вот так. …
04 янв '20 в 20:25
1
ответ
Слишком длинное имя файла при использовании keyword_search для обнаружения PDF?
Я пытаюсь выполнить интеллектуальный анализ текста PDF-файла, выполнив поиск по определенным ключевым словам. Это мой код: library(pdftools) library(tidyverse) library(pdfsearch) UC_text <- pdf_text("https://wilmar-iframe.todayir.com/attachment/2…
15 фев '20 в 04:32
1
ответ
Почему pdf_text из pdftools читает только первую страницу каждого элемента pdf в моем списке файлов pdf?
Я хотел бы создать фрейм данных со всем текстом и заголовком ech pdf из моего списка PDF-файлов. Я сделал один цикл for, но когда я открываю получившийся фрейм данных, я вижу, что не весь текст из каждого PDF-файла был преобразован в текст, а только…
15 фев '20 в 20:18
0
ответов
pdf_ocr_text() вылетает R
Я использую pdftools а также tesseractдля применения OCR к некоторым отчетам PDF, доступным в Интернете. Например, для использования страницы 2 этого отчета необходимо применить OCR. Однако, когда я пытаюсь использоватьpdf_ocr_text() на его URL-адре…
24 мар '20 в 03:07
1
ответ
Скребковый стол из PDF
Я пытаюсь очистить первую таблицу из нескольких очень похожих PDF-файлов. Пока я изолировал страницу таблицы, преобразовал таблицу в строку и загрузил ее вR. Кроме того, мне также удалось удалить части таблицы, которые меня не интересуют, а также за…
14 янв '20 в 12:29
1
ответ
как попасть на URL-адрес битового потока из href-ссылки html
Я использую rvest Rпакет для очистки PDF-файла с этой веб-страницы, но последняя ссылка отображается (как URL-адрес битового потока - что бы это ни было) после того, как я нажму наexposed url по имени AC1-96-21-01-2011.pdf. Заключительный файл pdf с…
15 янв '20 в 13:30
2
ответа
Эффективное использование функции pdf_data из пакета pdftools
Конечная цель - использовать пакет pdftools для эффективного перемещения по тысячам страниц документов pdf для последовательного и безопасного создания пригодного для использования фрейма данных / таблицы. Я попытался использовать пакет tabulizer и …
08 фев '20 в 16:46