MariaDB / Galera - Зависание узла замораживает весь кластер из трех узлов
Надеюсь , вы все здоровы.:-)
В настоящее время у меня повторяющаяся проблема. Наш кластер базы данных, состоящий из трех узлов, в настоящее время выходит из строя почти ежедневно. Причина повторяется в том, что один из трех узлов зависает и таким образом как-то зависает весь кластер. Но... у нас есть кластер, который защищает нас от сбоев.:-(
Проблема заключается в том, что время ожидания каждой попытки подключения истекает. Я подключаюсь по ssh к каждому из узлов и выполняю команду "mariadb" или "mysql". До сих пор всегда было так, что команда работала на 2 из 3 узлов, один узел (зависший) не отвечал. Если я перезапущу зависший узел с помощью "reboot -f", кластер снова станет работоспособным через несколько секунд.
Перезагрузка без "-f" не работает, потому что службу MariaDB нельзя остановить. Даже через несколько часов замороженный узел не удаляется из кластера.
Команда "mysqlcheck -A -e" отображает "ОК" для всех таблиц. Так что я надеюсь, что никто не испорчен.
Я в отчаянии по этому поводу, потому что база данных всегда была очень стабильной.:-(
Есть у кого-нибудь идеи?
Наша конфигурация:
- Каждый сервер имеет 8 ядер ЦП, 32 ГБ ОЗУ и работает с SSD.
- Ubuntu 20.04 LTS с последними обновлениями
- MariaDB 10.5.8
- "wsrep_protocol_version" 10
У нас есть две таблицы с 2-3 миллионами записей данных. Другие таблицы (еще около 10) содержат от 1 до 60000 записей данных. Доступ к базе данных осуществляется примерно 100 раз в секунду.