Как установить количество документов, обрабатываемых в пакете?
С Spark 2.2.0 контрольные точки работают немного иначе, чем версии. Существует папка коммитов, которая создается и после завершения каждого пакета файл записывается в папку.
Я сталкиваюсь со сценарием, в котором у меня есть около 10 тыс. Записей, и я говорю, что мое потоковое задание не выполняется примерно посередине после того, как оно обработало 5 тыс. Записей, нет файла, записанного в папку коммита в каталоге контрольных точек, и, следовательно, когда я перезапускаю задание, оно начинается с начала и происходит дублирование данных из 5 тыс. записей.
Из того, что я понимаю, похоже, что когда записывается файл коммита и когда вы перезапускаете, он извлекает данные из последнего смещения, иначе он обрабатывает данные в последнем успешном пакете.
Как установить количество документов для обработки в пакете?
1 ответ
Есть ли способ установить количество документов для обработки в пакете?
использование maxFilesPerTrigger
для файлов и maxOffsetsPerTrigger
за kafka
формат.