проектирование конвейера для нескольких наборов данных

Я пишу конвейер лучей Apache, который использует данные строки для создания нескольких наборов данных, у меня есть данные событий строки, и при добавлении нового файла в корзину облачного хранилища Google я читаю добавленный файл после получения его имени из сообщения pub/sub полезная нагрузка.

Мне нужно сгенерировать несколько наборов данных, используя один и тот же файл событий, но каждый набор данных имеет свои собственные шаги объединений, которые должны быть сгенерированы, мне нужно записать результат каждого набора данных в большой запрос и облачное хранилище Google.

мой вопрос в том, как лучше всего разработать этот конвейер из нескольких наборов данных, который потребляет одни и те же данные файла, и каждый набор данных имеет свою собственную фильтрацию и шаги, которые необходимо сгенерировать

0 ответов

Другие вопросы по тегам