Как составить график работы Hadoop условно?
Я довольно новичок в Hadoop, и особенно в Hadoop Job Scheduling. Вот что я пытаюсь сделать.
У меня есть 2 потока, каждый из которых имеет работу Hadoop. У меня есть свобода помещать эти потоки либо в один проект, либо в разные. Я не хочу, чтобы задания Hadoop выполнялись одновременно в кластере, но я также хочу убедиться, что они выполняются альтернативно.
Например, flow_1 (с hadoop_job_1) запускается и заканчивается -> flow_2 (с hadoop_job_2) запускается и заканчивается -> flow_1 (с hadoop_job_1) запускается и заканчивается и так далее.
И, конечно же, я бы хотел изящно справиться с особыми условиями. Например, flow_1 выполнено, но flow_2 не готово, затем flow_1 получает шанс на повторный запуск, если он готов, в случае сбоя flow_1, flow_2 все еще получает свой ход и т. Д.
Я хотел бы знать, какие планировщики я могу исследовать, которые способны сделать это.
Мы используем MapR.
Спасибо
1 ответ
Это выглядит как стандартный вариант использования oozie. Взгляните на эти учебные пособия. Выполнение рабочего процесса Oozie с помощью действий Pig, Hive & Sqoop и планировщика рабочих процессов Oozie для Hadoop.