Проблема с библиотекой табулятора в r, распознающей не буквенно-цифровые (символьные) символы в таблице в PDF

Question

Проблема с библиотекой табулятора в r, распознающей не буквенно-цифровые (символьные) символы в таблице в PDF

Я использую библиотеку табулятора в r для захвата данных из таблицы, расположенной внутри PDF на общедоступном веб-сайте (https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf).

Пример таблицы, которая меня интересует, находится на странице 23 PDF (стр. 2-21, в начале документа есть пара пустых страниц). Таблица имеет нестандартный формат, а также разные символы (не буквенно-цифровые символы в ячейках). Я хочу извлечь большую часть, если не все таблицы из этого документа.

Я хочу получить таблицу, в которой есть символы с кодами (например, черные круги с 999, белые круги с 777, знаки плюс с -99 и т. Д.).

Табулизатор по большей части хорошо справляется с преобразованием темных кругов в последовательные буквенно-цифровые коды и сохранением знаков плюса, но сталкивается с проблемами в столбце REC1 с белыми кругами, что странно, поскольку он, похоже, распознает экзотические символы в других столбцах.

Может ли кто-нибудь помочь исправить это? Я также попытался выделить область таблицы, но результат был хуже. Ниже приведен код r, который я использую.

Я знаю, что могу выполнить этот процесс вручную для всех таблиц в документе, используя встроенные инструменты выбора и экспорта PDF, но хотел бы автоматизировать этот процесс.

library("tabulizer")
f2 <- "https://www.waterboards.ca.gov/sandiego/water_issues/programs/basin_plan/docs/update082812/Chpt_2_2012.pdf"
tab <- extract_tables(f2, pages = 23, method = 'lattice')
head(tab[[1]])
df <- as.data.frame(tab)
write.csv(df, file = "test.csv")

2

pdf symbols pdf-scraping non-alphanumeric pdftables

Источник

user11036517 10 дек '19 в 04:38

0 ответов

Другие вопросы по тегам pdf symbols pdf-scraping non-alphanumeric pdftables