Присоединяйтесь к потоковому потоку, оставляя внешнее объединение сомнений с помощью Spark структурированной потоковой передачи

У меня нет четких понятий о структурированной потоковой передаче. У меня есть 5 потоков данных в виде неограниченных таблиц, мне нужно выполнить некоторую левую операцию внешнего соединения между ними и записать результат в другой поток данных. Например:

У меня есть неограниченные таблицы A, B, C, D и E.

У меня есть соединения как: D левое внешнее соединение (((Левое внешнее соединение B) левое внешнее соединение C)) левое внешнее соединение E)

Предыдущий результат я хочу записать в поток данных F. У меня нет ясного понимания, как решить эту проблему с помощью Spark Structured Streaming.

  1. Мне нужен водяной знак? Мне нужно обработать все события, поздно или нет.
  2. Как избежать ошибки OutOfMemory? Функция окна может помочь?
  3. Как я могу иметь дело с множественными потоковыми агрегатами?
  4. Могу ли я добавить водяной знак, используя sintax spark.sql("Выбрать * из...")
  5. Могу ли я решить эту проблему со статическими и потоковыми данными?
  6. Как временные или дельта-таблицы могут быть полезны для этой проблемы?
  7. Какие еще виды мыслей я должен принять во внимание, чтобы решить это?

0 ответов

Другие вопросы по тегам