проектирование конвейера для нескольких наборов данных
Я пишу конвейер лучей Apache, который использует данные строки для создания нескольких наборов данных, у меня есть данные событий строки, и при добавлении нового файла в корзину облачного хранилища Google я читаю добавленный файл после получения его имени из сообщения pub/sub полезная нагрузка.
Мне нужно сгенерировать несколько наборов данных, используя один и тот же файл событий, но каждый набор данных имеет свои собственные шаги объединений, которые должны быть сгенерированы, мне нужно записать результат каждого набора данных в большой запрос и облачное хранилище Google.
мой вопрос в том, как лучше всего разработать этот конвейер из нескольких наборов данных, который потребляет одни и те же данные файла, и каждый набор данных имеет свою собственную фильтрацию и шаги, которые необходимо сгенерировать