Есть ли в Spark что-то вроде функции «Закладки» клея, которая отслеживает уровень работы?
Я ищу, есть ли в Spark что-то вроде «закладки» AWS Glue. Я знаю, что в Spark есть контрольная точка, которая хорошо работает с отдельным источником данных. В Glue мы могли использовать закладку, чтобы отслеживать все файлы в разных таблицах, участвующих в задании, с помощью одной закладки.
1 ответ
Для этого вы можете использовать Spark Structured Streaming в сочетании с Trigger.Once() .
Поток, по сути, просто запускает один пакет микропотока, который аналогичен одному пакету, при этом используя возможность контрольных точек, которая отслеживает обработанные файлы.