Время ожидания экземпляра Amazon AWS EC2
У нас есть наше веб-приложение java, развернутое на экземпляре EC2 в Tomcat и доступное через веб-сервер Apache, который находится за HAProxy (3-уровневая архитектура). Все работает нормально, но время от времени я вообще не могу подключиться к своему приложению со своей машины, и мне приходится ждать (или перезагружать) свою машину, прежде чем соединение восстановится. Когда возникает эта проблема, я не могу даже SSH к хосту Bastion. Так же, как если бы внезапно вся среда исчезла или отключилась. Это происходит из разных мест (работа, дом), в разное время (день или ночь), с разных машин (windows, mac, ipad, iphone). Мы запустили инструменты диагностики сети в нашей сети на работе и вышли с пустыми руками. Нет проблем с сетью. Перезагрузка машины (или просто ожидание) решит проблему. Когда проблема начинает возникать на моей машине, я все еще могу получить доступ к консоли Amazon AWS EC2 и могу убедиться, что все экземпляры работают нормально. Но все же, когда я пытаюсь получить доступ к URL-адресу приложения из браузера, я продолжаю получать "тайм-ауты" и в то же время не могу использовать SSH. Но если я перезагружу свою машину или просто подожду, связь восстановится сама собой!!!
Странно, что это случалось со многими людьми на работе с разными интервалами, и иногда я могу подключиться к веб-приложению, но мой напарник не может (даже если мы работаем в одной сети!!). Это начинает сводить нас с ума. Мы все еще находимся на стадии тестирования, но мы приближаемся к дате начала работы, и теперь мы обеспокоены тем, что наши клиенты также столкнутся с этой неустойчивой проблемой.
Кто-нибудь знает, что может быть причиной этой проблемы?
1 ответ
Мы нашли причину проблемы выше. Оказалось, что на AWS возникла проблема с настройкой сети. Правило брандмауэра ограничивало диапазон портов, к которым можно получить доступ извне. IP-порты распределяются случайным образом, поэтому, если мы получили порт в правильном диапазоне, мы можем получить доступ к сервису, в противном случае доступ не удался.
Проблема теперь решена, и я надеюсь, что этот ответ поможет любому, кто может столкнуться с подобной проблемой в будущем.