Использование воздушного потока для оркестровки в реальном времени

У меня есть приложение, которое работает как веб-служба, которая отправляет задания в Spark по запросу пользователя. Очередь заданий должна быть ограничена для каждого пользователя. Я планирую использовать Airflow в качестве структуры оркестровки для управления очередями заданий, но, хотя он поддерживает параллельное выполнение DAG, он оптимизирован для пакетной обработки, а не в реальном времени. Предназначен ли Airflow для обработки ~200 выполнений DAG в секунду с несколькими очередями (по одной на пользователя) или я должен искать альтернативы?

1 ответ

У вас есть данные для перемещения из одной задачи в другую? Имеет ли значение время здесь, так как вы упомянули в реальном времени. Ожидается, что с Airflow рабочие процессы будут в основном статическими или медленно меняющимися. В основном для пакетной обработки ETL вы можете ускорить сердцебиение воздушного потока, но было бы хорошо иметь POC с вашим вариантом использования для тестирования.
Ниже приведен официальный документ Airflow: https://airflow.apache.org/

Airflow не является решением для потоковой передачи данных. Задачи не перемещают данные из одной в другую (хотя задачи могут обмениваться метаданными!). Воздушный поток не находится в пространстве Spark Streaming или Storm, он больше сопоставим с Oozie или Azkaban

Другие вопросы по тегам