Написание "Обезьяны Хаоса" для повышения устойчивости

Извиняюсь за довольно открытый характер вопроса, но я думаю, что это очень ценная область обсуждения.

После недавнего простоя AWS и огромного количества ужасных историй, которые последовали за ним, я был действительно впечатлен "техникой" Обезьяны Хаоса, примененной Netflix (одной из немногих, выживающих практически без единой царапины).

Для тех, кто не знает эту концепцию, это по сути маленький бот, который обходит вашу инфраструктуру, вызывая хаос на этом пути, как способ постоянного тестирования устойчивости.

Помимо поста Джеффа Этвуда в Chaos Monkey, я мало что мог найти по этому поводу, работая где-то еще.

Хотя я ценю, что хорошая разработка, основанная на тестировании, является прочной основой, я думаю, что это было бы отличным дополнением к арсеналу любой компании / организации, которая хочет оставаться в курсе.

  • Кто-нибудь еще подходил к этой теме раньше?
  • Есть ли какие-то другие области, кроме уязвимости подключения и безопасности, в которых вы бы увидели такой кусок кода?
  • Любые другие мысли / чувства по поводу этого подхода?

1 ответ

Решение

Есть несколько тестов, которые вы можете сделать, чтобы нагрузить вашу систему. Мне нравится использовать Apache Bench для загрузки теста страницы, которая пишет в базу данных. Я проверяю его как на количество обращений, так и на количество одновременных пользователей.

500 одновременно работающих пользователей делают 5000 запросов
$ ab -n 5000 -c 500 url

Я знаю, что мой веб-сервер может противостоять этому, но я обнаружил проблему с тем, как я регистрировал информацию. Вы могли бы указать, что это разные аспекты вашего сайта.

Если вы используете кеширование, вы можете очистить кеш в середине тестирования, чтобы убедиться, что все быстро восстанавливается.

Если вы можете реплицировать свой сервер в виртуальной машине, изменить объем оперативной памяти, размонтировать жесткий диск, не хватает дискового пространства, отключить сетевой интерфейс и т. Д.

Вы можете попытаться перебором пароля и убедиться, что ваша система допускает только n попыток входа в систему до ограничения скорости этого пользователя.

Другие вопросы по тегам