Оркестровка рабочего процесса для Google Dataflow

Мы используем Google Dataflow для пакетной обработки данных и ищем некоторые опции для инструментов управления рабочими процессами, что-то похожее на то, что Azkaban делает для Hadoop.

Ключевые вещи, которые мы ищем,

  • Настройка рабочих процессов
  • Планирование рабочих процессов
  • Мониторинг и оповещение о неудачных рабочих процессах
  • Возможность повторного запуска неудачных заданий

Мы оценили Pentaho, но эти функции доступны в версии Enterprise, которая стоит дорого. В настоящее время мы оцениваем Azkaban, так как он поддерживает типы заданий javaprocess. Но Azkaban в первую очередь создан для рабочих мест Hadoop, поэтому он имеет более глубокую интеграцию с инфраструктурой Hadoop, чем обычные процессы javaprocess.

Цените некоторые предложения для открытых или очень дешевых решений.

2 ответа

Похоже, что Apache Airflow ( https://github.com/apache/incubator-airflow) должен соответствовать вашим потребностям, и теперь у него есть оператор Dataflow ( https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py).

Для организации потока данных Google мы можем использовать Cloud Composer, который является сервисом управления управляемыми рабочими процессами, построенным на Apache Airflow. Это дает больше гибкости, с помощью этого мы можем управлять большинством сервисов и рабочих процессов Google, которые пересекаются между локальным и общедоступным облаком.

Другие вопросы по тегам