Выполнение задач Hadoop/Storm на Apache Marathon

Недавно я наткнулся на Apache Mesos и успешно развернул топологию Storm поверх Mesos.

Я хочу попробовать запустить топологию Storm / задания Hadoop над Apache Marathon (возникли проблемы с запуском Storm непосредственно на Apache Mesos с использованием среды mesos-storm).

Я не смог найти учебник / статью, в которой можно было бы перечислить шаги по запуску задач Hadoop/Spark из Apache Marathon.

Было бы здорово, если бы кто-нибудь мог предоставить какую-либо помощь или информацию по этой теме (возможно, определение задания Json для Marathon для запуска задания storm/hadoop).

большое спасибо

2 ответа

Спасибо за ваш ответ, я развернул кластер Storm-Docker на Apache Mesos с Marathon. Для открытия сервиса я использовал HAProxy. Эта настройка позволяет службам (nimbus или zookeeper и т. Д.) Общаться друг с другом с помощью портов, поэтому, например, добавление нескольких экземпляров для службы не является проблемой, поскольку кластер найдет их, используя порты, и распределит запросы между всеми экземпляры услуги. Ниже приведен проект GitHub с рецептами марафона и изображениями Docker: https://github.com/obaidsalikeen/storm-marathon

Marathon предназначен для долго работающих сервисов, поэтому вы можете использовать его для запуска планировщика JobTracker или Spark, но лучше запускать фактические пакетные задания, такие как задачи Hadoop/Spark, в пакетной среде, такой как Chronos ( https://github.com/airbnb/chronos). Marathon будет перезапускать задачи после завершения / сбоя, тогда как Chronos (распределенный cron с зависимостями) позволяет вам устанавливать запланированные задания и сложные рабочие процессы.

Хотя этот учебник немного устарел, приведем хороший пример.

http://mesosphere.com/docs/tutorials/etl-pipelines-with-chronos-and-hadoop/

Другие вопросы по тегам