Redis Master Slave Switch после перезаписи Aof

Этот Redis Cluster имеет 240 узлов (120 master и 120 slave) и хорошо работает в течение длительного времени. Но теперь он получает переключатель Master Slave почти на несколько часов.

Я получаю некоторые журналы с Redis Server.

5c541d3a765e087af7775ba308f51ffb2aa54151 10.12.28.165:6502 13306: M 08 март 18:55:02.597 * Перезапись файлов только с фоновым добавлением, запущенная pid 15396
13306:M 08 март 18:55:41.636 # Состояние кластера изменено: сбой 13306: 08:45.321 # Соединение с идентификатором подчиненного клиента #112948 потеряно.
13306:M 08 Mar 18:55:46.243 # Обнаружено изменение конфигурации. Переконфигурирование себя как реплики afb6e012db58bd26a7c96182b04f0a2ba6a45768
13306:S 08 мар. 18:55:47.134 * Перезаписываемый дочерний объект AOF просит прекратить отправку различий.
15396:C 08 марта 18:55:47.134 * Родитель согласился прекратить отправку различий. Завершение AOF...
15396:C 08 марта 18:55:47.134 * Конкатенация 0,02 МБ различий AOF, полученных от родителя.
15396:C 08 марта 18:55:47.135 * Выполнено перезапись файла SYNC только для добавления 15396: C 08 марта 18:55:47.186 * Перезапись AOF: 4067 МБ памяти, используемой для копирования при записи 13306: S 08 марта 18:55:47.209 # Состояние кластера изменено: хорошо
5ac747878f881349aa6a62b179176ddf603e034c
10.12.30.107:6500

22825:M 08 Mar 18:55:30.534 * Сообщение FAIL, полученное от da493af5bb3d15fc563961de09567a47787881be около 5c541d3a765e087af7775ba308f51ffb2aa54151
22825:M 08 Mar 18:55:31.440 # Авторизация при отказе предоставлена ​​afb6e012db58bd26a7c96182b04f0a2ba6a45768 для эпохи 323
22825:M 08 Mar 18:55:41.587 * Фон только для добавления файлов, перезапись начинается с pid 23628
22825:M 08 Mar 18:56:24.200 # Состояние кластера изменено: сбой
22825:M 08 Mar 18:56:30.002 # Соединение с подчиненным клиентом с идентификатором #382416 потеряно.
22825:M 08 Mar 18:56:30.830 * Сообщение FAIL, полученное от 0decbe940c6f4d4330fae5a9c129f1ad4932405d о 5ac747878f881349aa6a62b179176ddf603e034c
22825:M 08 марта 18:56:30.840 # Отказоустойчивый доступ запрещен для d46f95da06cfcd8ea5eaa15efabff5bd5e99df55: его мастер активирован
22825:M 08 Mar 18:56:30.843 # Обнаружено изменение конфигурации. Переконфигурирование себя в качестве копии d46f95da06cfcd8ea5eaa15efabff5bd5e99df55
22825:S 08 мар. 18:56:31.030 * Очистить состояние FAIL для узла 5ac747878f881349aa6a62b179176ddf603e034c: ведомое устройство снова доступно.
22825:S 08 марта 18:56:31.030 * Очистить состояние FAIL для узла 5c541d3a765e087af7775ba308f51ffb2aa54151: снова доступен подчиненный сервер.
22825:S 08 Mar 18:56:31.294 # Состояние кластера изменено: хорошо
22825:S 08 Mar 18:56:31.595 * Подключение к MASTER 10.12.30.104:6404
22825: С 08 марта 18:56:31.671 * Начата синхронизация MASTER  SLAVE
22825:S 08 Mar 18:56:31.671 * Неблокирующее соединение для SYNC вызвало событие.
22825:S 08 Mar 18:56:31.672 * Мастер ответил на PING, репликация может продолжаться...
22825:S 08 Mar 18:56:31.673 * Частичная ресинхронизация невозможна (без кэшированного мастера)
22825:S 08 Mar 18:56:31.691 * AOF rewrite ребенок просит прекратить отправку различий.

Это добавляет, что Рэдис Мастер Раб Свтич произошел после перефразирования.

Вот конфиг этого кластера.

демонизировать нет
tcp-backlog 511
тайм-аут 0
tcp-keepalive 60
уведомление об уровне
базы данных 16
dir "/var/cachecloud/data"
стоп-записи-на-bgsave-ошибке нет
тайм-аут 60
период repl-ping-slave 10
repl-disable-tcp-nodelay нет
repl-backlog-size 10000000
repl-backlog-ttl 7200
ведомые данные служат да
только для чтения в режиме ведомого
рабский приоритет 100
Луа-срок 5000
slowlog-log-slower-than 10000
slowlog-max-len 128
hash-max-ziplist-records 512
hash-max-ziplist-value 64
list-max-ziplist-records 512
list-max-ziplist-value 64
set-max-intset-records 512
zset-max-ziplist-records 128
zset-max-ziplist-value 64
активная перефразировка да
ограничение клиентского вывода-буфера нормальное 0 0 0
Ведомый клиент-выход-буфер-ограничение 512 МБ 128 МБ 60
клиент-выход-буфер-лимит pubsub 32mb 8mb 60
гц 10
порт 6401
максимальная память 13000mb
maxmemory-policy volatile-lru
в добавок да
appendfsync нет
имя_файла "appendonly-6401.aof"
dbfilename "dump-6401.rdb"
aof-rewrite-incremental-fsync да
no-appendfsync-on-rewrite да
auto-aof-rewrite-min-size 62500kb
auto-aof-rewrite-процент 86
Сжатие да
rdbchecksum да
repl-diskless-sync нет
repl-diskless-sync-delay 5
Максклиенты 10000
hll-sparse-max-bytes 3000
min-slaves-to-write 0
min-slaves-max-lag 10
урезанный под нагрузкой да
notify-keyspace-events ""
связать 10.12.26.226
защищенный режим нет
с поддержкой кластеров да
Тайм-аут узла кластера 15000
Кластер-ведомый-фактор достоверности 10
кластер-миграционный барьер 1
кластерный конфигурационный файл "node-6401.conf"
кластер требует полного покрытия нет
команда переименования FLUSHDB ""
переименовать команду FLUSHALL ""
переименовать-команду KEYS ""

В моем варианте aof rewrite не повлияет на основной поток Redis. НО это, кажется, заставляет этот узел не отвечать на пинг других узлов.

0 ответов

Проверьте THP(прозрачные огромные страницы) в параметре ядра Linux. потому что AOF diff размер 0,02 МБ, размер копии при записи 2067 МБ.

Другие вопросы по тегам