Запуск Mesos через Monit

Я пытаюсь запустить Mesos (без zookeeper), используя monit для поддержания работы рабов.

Я использую следующие скрипты, чтобы запускать и останавливать мезо-рабов:

start-slave.sh:

#!/bin/bash
nohup /home/someuser/mesos/build/bin/mesos-slave.sh 
    --master=192.168.0.241:5050 
    --strict=false 
    --log_dir=/home/someuser/mesos/logs < /dev/null &
sleep 1 
pidof lt-mesos-slave > /home/someuser/run/mesos-slave.pid

stop-slave.sh:

#!/bin/bash
cat /home/someuser/run/mesos-slave.pid | xargs kill -9

Когда я запускаю скрипты через ssh, они отлично работают. Однако, когда я использую их через monit, как описано ниже, регистрируется ведомое устройство (я вижу их в онлайн-интерфейсе), но когда я пытаюсь выполнить вычисление, используя spark, это дает сбой в том смысле, что большинство задач потеряно.

Настройка Monit:

check process mesos-slave with pidfile /home/someuser/run/mesos-slave.pid
    start program = "/home/someuser/run/start-mesos.sh"
        as uid someuser
    stop program = "/home/someuser/run/stop-mesos.sh"
        as uid someuser
    if failed port 5051 then restart

Log exerp:

I0925 14:06:21.461169 10633 slave.cpp:2413] Executor '20140924-160043-4043352256-5050-7966-0' of framework 20140925-140255-4043352256-5050-11608-0000 has terminated with signal Killed
E0925 14:06:21.461323 10639 slave.cpp:2686] Failed to unmonitor container for executor 20140924-160043-4043352256-5050-7966-0 of framework 20140925-140255-4043352256-5050-11608-0000: Not monitored
I0925 14:06:21.462224 10633 slave.cpp:2018] Handling status update TASK_LOST (UUID: 8258a34e-7831-4e5d-ba55-6df2b905b5ba) for task 0 of framework 20140925-140255-4043352256-5050-11608-0000 from @0.0.0.0:0

Я использую Monit правильно?

0 ответов

Другие вопросы по тегам