Режим потока или режим решетки, какой из них установлен по умолчанию в модуле tabula-py?
Мне интересно, может ли кто-нибудь, кто знаком с модулем tabula-py для Python, помочь мне с этим вопросом. Ни в одной из документов tabula-py не ясно, tabula.read_pdf()
функция использует извлечение режима решетки или потока в качестве настройки по умолчанию, если в функцию не передан аргумент решетки или потока. Предлагает ли код как-то угадать, какой из двух режимов будет предпочтительнее, в зависимости от "таблицы", встречающейся в тексте PDF, и, если нет, не могли бы вы уточнить, какой из двух режимов извлечения используется по умолчанию (поэтому рендеринг одного из два аргумента излишни, поскольку де-факто, если вы установите решетку в False
тогда вы должны по определению установить поток в True
, и наоборот)? Заранее спасибо.
Это легко установить tabula.read_pdf()
режим с решеткой или режим потокового извлечения, так что это не моя проблема. Я просто хочу знать, какой из двух используется в качестве режима извлечения по умолчанию, если я не укажу, какой из них я хочу использовать.
2 ответа
Если я правильно понимаю, tabula-java использует метод DECIDE, который применяет динамически электронную таблицу и решетку постранично. https://github.com/tabulapdf/tabula-java/blob/21b124660a90127d2867a48db04d6412d9c4f438/src/main/java/technology/tabula/CommandLineApp.java#L258
Обратите внимание, что до версии tabula-java 1.0.2 использование опции догадки заставляло использовать режим решетки по умолчанию. tabula-py 1.4.0 использует tabula-java 1.0.3, поэтому вы можете использовать догадку и stream / lattice отдельно.
Именование для методов синтаксического анализа внутри Camelot (то есть Lattice и Stream) было вдохновлено Tabula. Lattice используется для анализа таблиц, между ячейками которых есть разграниченные линии, а Stream используется для анализа таблиц, между ячейками которых есть пробелы, для имитации структуры таблицы.
https://github.com/camelot-dev/camelot/wiki/Comparison-with-other-PDF-Table-Extraction-libraries-and-tools
вы получите лучшее понимание с этим репозиторием