Сколько может масштабироваться воздушный поток?

Кто-нибудь сообщил, насколько они смогли увеличить Airflow в своей компании? Я планирую внедрить Airflow для выполнения более 5000 задач, каждая из которых будет выполняться ежечасно, и когда-нибудь масштабировать до 20 000+ задач. При рассмотрении планировщика кажется, что это может быть узким местом, поскольку может выполняться только один его экземпляр, и я обеспокоен тем, что планировщику будет трудно справиться со многими задачами. Должна ли я быть?

1 ответ

Решение

Мы выполняем тысячи задач в день в моей компании и используем Airflow более двух лет. Эти пакеты запускаются каждые 15 минут и генерируются через конфигурационные файлы, которые могут изменяться в любое время (поступающие из пользовательского интерфейса).

Короткий ответ - да, это может определенно масштабироваться в зависимости от вашей инфраструктуры. Некоторые из новых функций 1.10 должны сделать это проще, чем версия 1.8, которую мы запускаем и которая выполняет все эти задачи. Мы запустили это на большом Mesos/DCOS, который потребовал много тонкой настройки, чтобы достичь стабильной точки.

Длинный ответ - хотя он может масштабироваться до этого, мы обнаружили, что лучшее решение - это несколько экземпляров Airflow с различными конфигурациями (настройками планировщика, количеством рабочих и т. Д.), Оптимизированными для типов пакетов, на которых они работают. Набор групп обеспечения доступности баз данных, выполняющих длительные задания машинного обучения, должен размещаться на экземпляре Airflow, который отличается от экземпляров, выполняющих 5-минутные задания ETL. Это также облегчает различным командам поддержание заданий, за которые они несут ответственность, и упрощает итерацию при любой тонкой настройке, которая необходима.

Другие вопросы по тегам