Есть ли в Spark что-то вроде функции «Закладки» клея, которая отслеживает уровень работы?

Я ищу, есть ли в Spark что-то вроде «закладки» AWS Glue. Я знаю, что в Spark есть контрольная точка, которая хорошо работает с отдельным источником данных. В Glue мы могли использовать закладку, чтобы отслеживать все файлы в разных таблицах, участвующих в задании, с помощью одной закладки.

1 ответ

Для этого вы можете использовать Spark Structured Streaming в сочетании с Trigger.Once() .

Поток, по сути, просто запускает один пакет микропотока, который аналогичен одному пакету, при этом используя возможность контрольных точек, которая отслеживает обработанные файлы.

Другие вопросы по тегам