Mesos-master: завершение работы завершилось неудачей при fd=25: конечная точка транспорта не подключена [107]
Когда я запускаю 3 mesos-master с QUORUM=2, они терпят неудачу через 1 минуту после избрания в качестве лидера, выдавая ошибки:
E1015 11:50:35.539562 19150 socket.hpp:174] Shutdown failed on fd=25: Transport endpoint is not connected [107]
E1015 11:50:35.539897 19150 socket.hpp:174] Shutdown failed on fd=24: Transport endpoint is not connected [107]
Они продолжают избирать друг друга в цикле, постоянно терпя неудачу и переизбирая.
Если я установлю QUORUM=1, все будет хорошо. Что может быть причиной этого?
2 ответа
Одна проблема заключалась в том, что брандмауэр AWS блокировал доступ к общедоступным IP-адресам сервера, а zookeeper транслировал общедоступные IP-адреса (установлено в advertise_ip), поэтому никто не мог соединиться друг с другом. Рабы также не могли соединиться с хозяевами с той же ошибкой.
Когда я установил локальный IP в advertise_ip (чтобы Zookeeper транслировал локальные IP), мастера могли общаться, и QUORUM=2 работал. Когда я удалил правило брандмауэра, подчиненные могли подключиться к мастеру.
У нас вчера была аналогичная проблема, марафон был немного странным, потому что некоторые приложения не были развернуты. Странно то, что приложение запускается, но проверка работоспособности никогда не становится зеленой, и поэтому nixy не обновлял nginx.
После долгих исследований мы пришли к той же ошибке:
E0718 18:51:05.836688 5049 socket.hpp:107] Shutdown failed on fd=46: Transport endpoint is not connected [107]
В конце концов, мы обнаруживаем, что проблема была в выборах, даже в том, что наш КВОРУМ =1 (у нас 2 мастера) каким-то образом теряет себя, и один мастер не общается с другим.
Чтобы решить эту проблему, мы инициировали новые выборы с помощью метода DELETE Marathon API / v2 / leader, и после этого все заработало.
У нас была та же проблема: журнал mesos-master переполнялся такими сообщениями:
mesos-master [27499]: E0616 14: 29: 39.310302 27523 socket.hpp: 174] Ошибка завершения при fd=67: конечная точка транспорта не подключена [107]
Оказалось, это была проверка работоспособности loadbalancers в /stats.json