Присоединяйтесь к потоковому потоку, оставляя внешнее объединение сомнений с помощью Spark структурированной потоковой передачи
У меня нет четких понятий о структурированной потоковой передаче. У меня есть 5 потоков данных в виде неограниченных таблиц, мне нужно выполнить некоторую левую операцию внешнего соединения между ними и записать результат в другой поток данных. Например:
У меня есть неограниченные таблицы A, B, C, D и E.
У меня есть соединения как: D левое внешнее соединение (((Левое внешнее соединение B) левое внешнее соединение C)) левое внешнее соединение E)
Предыдущий результат я хочу записать в поток данных F. У меня нет ясного понимания, как решить эту проблему с помощью Spark Structured Streaming.
- Мне нужен водяной знак? Мне нужно обработать все события, поздно или нет.
- Как избежать ошибки OutOfMemory? Функция окна может помочь?
- Как я могу иметь дело с множественными потоковыми агрегатами?
- Могу ли я добавить водяной знак, используя sintax spark.sql("Выбрать * из...")
- Могу ли я решить эту проблему со статическими и потоковыми данными?
- Как временные или дельта-таблицы могут быть полезны для этой проблемы?
- Какие еще виды мыслей я должен принять во внимание, чтобы решить это?