Лучшие практики ETL с потоком данных и поиском
Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery?
Я пытаюсь понять, как справиться со следующими вещами:
- Как сделать простой поиск размеров в потоковом конвейере?
- Если ответ sideInput - как обработать поиск значений, которые еще не существуют в измерении? Как обновить sideInput?
1 ответ
Когда боковые входы получают поздние данные в определенном окне, они будут пересчитаны. Если вы выполните поиск после этого, то сможете увидеть элемент на боковом входе.
В настоящее время модель Beam не включает семантику для повторного запуска ParDo, который потребляет боковой ввод, поэтому вам нужно каким-то образом удостовериться в том, что (повторный) поиск выполняется после вычисления побочного ввода.