Лучшие практики ETL с потоком данных и поиском

Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery?

Я пытаюсь понять, как справиться со следующими вещами:

  • Как сделать простой поиск размеров в потоковом конвейере?
  • Если ответ sideInput - как обработать поиск значений, которые еще не существуют в измерении? Как обновить sideInput?

1 ответ

Когда боковые входы получают поздние данные в определенном окне, они будут пересчитаны. Если вы выполните поиск после этого, то сможете увидеть элемент на боковом входе.

В настоящее время модель Beam не включает семантику для повторного запуска ParDo, который потребляет боковой ввод, поэтому вам нужно каким-то образом удостовериться в том, что (повторный) поиск выполняется после вычисления побочного ввода.

Другие вопросы по тегам