Как установить количество документов, обрабатываемых в пакете?

С Spark 2.2.0 контрольные точки работают немного иначе, чем версии. Существует папка коммитов, которая создается и после завершения каждого пакета файл записывается в папку.

Я сталкиваюсь со сценарием, в котором у меня есть около 10 тыс. Записей, и я говорю, что мое потоковое задание не выполняется примерно посередине после того, как оно обработало 5 тыс. Записей, нет файла, записанного в папку коммита в каталоге контрольных точек, и, следовательно, когда я перезапускаю задание, оно начинается с начала и происходит дублирование данных из 5 тыс. записей.

Из того, что я понимаю, похоже, что когда записывается файл коммита и когда вы перезапускаете, он извлекает данные из последнего смещения, иначе он обрабатывает данные в последнем успешном пакете.

Как установить количество документов для обработки в пакете?

1 ответ

Решение

Есть ли способ установить количество документов для обработки в пакете?

использование maxFilesPerTrigger для файлов и maxOffsetsPerTrigger за kafka формат.

Другие вопросы по тегам