Лучшие практики ETL с потоком данных и поиском

Question

Лучшие практики ETL с потоком данных и поиском

Какова лучшая практика для реализации стандартного потокового ETL-процесса, который записывает факты и некоторые таблицы меньшего размера в BigQuery?

Я пытаюсь понять, как справиться со следующими вещами:

Как сделать простой поиск размеров в потоковом конвейере?
Если ответ sideInput - как обработать поиск значений, которые еще не существуют в измерении? Как обновить sideInput?

1

google-cloud-dataflow apache-beam

Источник

user7430531 19 май '17 в 09:55

1 ответ

Другие вопросы по тегам google-cloud-dataflow apache-beam

user1255356 09 авг '17 в 00:02 2017-08-09 00:02 · Answer 1 · 2017-08-09 00:02

Когда боковые входы получают поздние данные в определенном окне, они будут пересчитаны. Если вы выполните поиск после этого, то сможете увидеть элемент на боковом входе.

В настоящее время модель Beam не включает семантику для повторного запуска ParDo, который потребляет боковой ввод, поэтому вам нужно каким-то образом удостовериться в том, что (повторный) поиск выполняется после вычисления побочного ввода.