Строки, содержащие значения n, выброшенные при чтении таблиц PDF

Question

Строки, содержащие значения n, выброшенные при чтении таблиц PDF

У меня есть PDF -файл с несколькими страницами. Нечетные страницы содержат девять столбцов данных, четные страницы содержат одиннадцать столбцов данных, что означает, что столбцы каждых двух страниц должны быть объединены во фрейм данных.

Я хочу читать таблицы PDF с буквой R, используя библиотеку табулизаторов.

Проблема заключается в том, что строки четных страниц иногда не содержат значимых данных (значений na), которые обозначены чертой (-). Если все столбцы строки содержат только значения na, как описано, Tabulizer полностью выбрасывает эту строку. Однако мне нужна эта строка, потому что в противном случае я не могу объединить столбцы двух страниц из-за разного количества строк.

Есть ли способ сказать Tabulizer не выбрасывать какие-либо данные?

Ссылка на PDF - содержит статистику об австрийских школах

Мой текущий код:

file.name = './data/10 schulen_201516_nach_gemeinden_und_schultypen.pdf'

areas.dataOdd = locate_areas(file.name, pages=c(1))
areas.dataEven = locate_areas(file.name, pages=c(2))

oddPageNumbers = c(1:58)[c(T, F)]
evenPageNumbers = c(1:58)[c(F, T)]
pdf.tablesOdd = extract_tables(file.name, pages=oddPageNumbers, guess=F, area = c(areas.dataOdd))
pdf.tablesEven = extract_tables(file.name, pages=evenPageNumbers, guess=F, area = c(areas.dataEven))

# Here I want to merge but I cannot because of missing rows

0

r tabula

Источник

user5219277 15 ноя '17 в 14:11

0 ответов

Другие вопросы по тегам r tabula