repmgr 3.3.2 в режиме ожидания завершается, когда мастер не работает, нет нового мастера

У меня есть 3 сервера CentOS под управлением Postgres 9.5 и Repmgr 3.3.2.

Большую часть времени, когда мастер не работает, в режиме ожидания x2 выбирается новый мастер, и все кажется в порядке.

Однако иногда, когда мастер не работает, repmgr в режиме ожидания x2 завершает работу без принятия решения о новом мастере.

В этом случае 172.23.101.215 является мастером (в данный момент недоступен), а 172.23.101.213 и 172.23.101.217 являются резервными.

Это файл repmgr.log из режима ожидания 172.23.101.213 (с --verbose):

[2017-12-19 15:04:42] [INFO] connecting to database 'host=172.23.101.217 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10'
[2017-12-19 15:04:42] [DEBUG] connecting to: 'host=172.23.101.217 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:42] [DEBUG] set_config():
SET synchronous_commit TO 'local'
[2017-12-19 15:04:42] [INFO] connected to database, checking its state
[2017-12-19 15:04:42] [DEBUG] get_node_record():
SELECT id, type, upstream_node_id, name, conninfo,        slot_name, priority, active  FROM "repmgr_fwc_cluster".repl_nodes  WHERE cluster = 'fwc_cluster'    AND id = 3
[2017-12-19 15:04:42] [DEBUG] node id is 3, upstream is 2
[2017-12-19 15:04:42] [INFO] connecting to master node of cluster 'fwc_cluster'
[2017-12-19 15:04:42] [INFO] retrieving node list for cluster 'fwc_cluster'
[2017-12-19 15:04:42] [DEBUG] get_master_connection():
  SELECT id, conninfo,          CASE WHEN type = 'master' THEN 1 ELSE 2 END AS type_priority    FROM "repmgr_fwc_cluster".repl_nodes    WHERE cluster = 'fwc_cluster'      AND type != 'witness' ORDER BY active DESC, type_priority, priority, id
[2017-12-19 15:04:42] [INFO] checking role of cluster node '2'
[2017-12-19 15:04:42] [DEBUG] connecting to: 'host=172.23.101.215 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:45] [ERROR] connection to database failed: could not connect to server: No route to host
        Is the server running on host "172.23.101.215" and accepting
        TCP/IP connections on port 5432?

[2017-12-19 15:04:45] [INFO] checking role of cluster node '3'
[2017-12-19 15:04:45] [DEBUG] connecting to: 'host=172.23.101.217 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:45] [DEBUG] set_config():
SET synchronous_commit TO 'local'
[2017-12-19 15:04:45] [DEBUG] is_standby(): SELECT pg_catalog.pg_is_in_recovery()
[2017-12-19 15:04:45] [INFO] checking role of cluster node '1'
[2017-12-19 15:04:45] [DEBUG] connecting to: 'host=172.23.101.213 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:45] [DEBUG] set_config():
SET synchronous_commit TO 'local'
[2017-12-19 15:04:45] [DEBUG] is_standby(): SELECT pg_catalog.pg_is_in_recovery()
[2017-12-19 15:04:45] [ERROR] unable to connect to master node
[2017-12-19 15:04:45] [INFO] repmgrd terminating...

Этот же журнал также находится в другом режиме ожидания. Есть идеи? ТИА.

0 ответов

Другие вопросы по тегам