Строки, содержащие значения n, выброшенные при чтении таблиц PDF
У меня есть PDF -файл с несколькими страницами. Нечетные страницы содержат девять столбцов данных, четные страницы содержат одиннадцать столбцов данных, что означает, что столбцы каждых двух страниц должны быть объединены во фрейм данных.
Я хочу читать таблицы PDF с буквой R, используя библиотеку табулизаторов.
Проблема заключается в том, что строки четных страниц иногда не содержат значимых данных (значений na), которые обозначены чертой (-). Если все столбцы строки содержат только значения na, как описано, Tabulizer полностью выбрасывает эту строку. Однако мне нужна эта строка, потому что в противном случае я не могу объединить столбцы двух страниц из-за разного количества строк.
Есть ли способ сказать Tabulizer не выбрасывать какие-либо данные?
Ссылка на PDF - содержит статистику об австрийских школах
Мой текущий код:
file.name = './data/10 schulen_201516_nach_gemeinden_und_schultypen.pdf'
areas.dataOdd = locate_areas(file.name, pages=c(1))
areas.dataEven = locate_areas(file.name, pages=c(2))
oddPageNumbers = c(1:58)[c(T, F)]
evenPageNumbers = c(1:58)[c(F, T)]
pdf.tablesOdd = extract_tables(file.name, pages=oddPageNumbers, guess=F, area = c(areas.dataOdd))
pdf.tablesEven = extract_tables(file.name, pages=evenPageNumbers, guess=F, area = c(areas.dataEven))
# Here I want to merge but I cannot because of missing rows