Как установить количество документов, обрабатываемых в пакете?

Question

Как установить количество документов, обрабатываемых в пакете?

С Spark 2.2.0 контрольные точки работают немного иначе, чем версии. Существует папка коммитов, которая создается и после завершения каждого пакета файл записывается в папку.

Я сталкиваюсь со сценарием, в котором у меня есть около 10 тыс. Записей, и я говорю, что мое потоковое задание не выполняется примерно посередине после того, как оно обработало 5 тыс. Записей, нет файла, записанного в папку коммита в каталоге контрольных точек, и, следовательно, когда я перезапускаю задание, оно начинается с начала и происходит дублирование данных из 5 тыс. записей.

Из того, что я понимаю, похоже, что когда записывается файл коммита и когда вы перезапускаете, он извлекает данные из последнего смещения, иначе он обрабатывает данные в последнем успешном пакете.

Как установить количество документов для обработки в пакете?

1

apache-spark structured-streaming checkpointing

Источник

user5319217 20 июл '17 в 19:29

1 ответ

Решение

Другие вопросы по тегам apache-spark structured-streaming checkpointing

user1305344 20 июл '17 в 19:52 2017-07-20 19:52 · Accepted Answer · 2017-07-20 19:52

Есть ли способ установить количество документов для обработки в пакете?

использование maxFilesPerTrigger для файлов и maxOffsetsPerTrigger за kafka формат.

1

Источник

user1305344 20 июл '17 в 19:52