Платформа Workflow для управления обработкой входящих файлов

В общем, у меня есть один рабочий процесс, который я хочу иметь возможность контролировать. Рабочий процесс должен запускаться всякий раз, когда поступают новые файлы или, альтернативно, в определенные запланированные моменты времени, т.е. я хочу иметь возможность вставлять новые "задания" в рабочий процесс по мере их поступления и обрабатывать файлы, выполняя множество различных задач и этапов. Я хочу иметь возможность отслеживать каждый файл, проходящий через задачи. Celery может управлять очередями и распределением нагрузки для каждой задачи, но это еще не решено.

Я смотрел на Apache Airflow и, насколько я понимаю на данный момент, больше ориентирован на мониторинг множества различных рабочих процессов, так что каждый рабочий процесс в основном выполняется от начала до конца, а не добавляет новые файлы в начало потока до предыдущий пробег закончился. Кажется, что рабочий процесс Cadence может делать то, что мне нужно, но также кажется излишним.

Я не ожидаю конкретного окончательного решения здесь, но я был бы признателен за предложения для большего количества таких решений, которые я могу рассмотреть и может соответствовать вышеизложенному.

0 ответов

Луиджи - https://luigi.readthedocs.io/en/stable/

Чрезвычайно легкий и быстрый по сравнению с Airflow.

Другие вопросы по тегам