repmgr 3.3.2 в режиме ожидания завершается, когда мастер не работает, нет нового мастера
У меня есть 3 сервера CentOS под управлением Postgres 9.5 и Repmgr 3.3.2.
Большую часть времени, когда мастер не работает, в режиме ожидания x2 выбирается новый мастер, и все кажется в порядке.
Однако иногда, когда мастер не работает, repmgr в режиме ожидания x2 завершает работу без принятия решения о новом мастере.
В этом случае 172.23.101.215 является мастером (в данный момент недоступен), а 172.23.101.213 и 172.23.101.217 являются резервными.
Это файл repmgr.log из режима ожидания 172.23.101.213 (с --verbose):
[2017-12-19 15:04:42] [INFO] connecting to database 'host=172.23.101.217 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10'
[2017-12-19 15:04:42] [DEBUG] connecting to: 'host=172.23.101.217 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:42] [DEBUG] set_config():
SET synchronous_commit TO 'local'
[2017-12-19 15:04:42] [INFO] connected to database, checking its state
[2017-12-19 15:04:42] [DEBUG] get_node_record():
SELECT id, type, upstream_node_id, name, conninfo, slot_name, priority, active FROM "repmgr_fwc_cluster".repl_nodes WHERE cluster = 'fwc_cluster' AND id = 3
[2017-12-19 15:04:42] [DEBUG] node id is 3, upstream is 2
[2017-12-19 15:04:42] [INFO] connecting to master node of cluster 'fwc_cluster'
[2017-12-19 15:04:42] [INFO] retrieving node list for cluster 'fwc_cluster'
[2017-12-19 15:04:42] [DEBUG] get_master_connection():
SELECT id, conninfo, CASE WHEN type = 'master' THEN 1 ELSE 2 END AS type_priority FROM "repmgr_fwc_cluster".repl_nodes WHERE cluster = 'fwc_cluster' AND type != 'witness' ORDER BY active DESC, type_priority, priority, id
[2017-12-19 15:04:42] [INFO] checking role of cluster node '2'
[2017-12-19 15:04:42] [DEBUG] connecting to: 'host=172.23.101.215 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:45] [ERROR] connection to database failed: could not connect to server: No route to host
Is the server running on host "172.23.101.215" and accepting
TCP/IP connections on port 5432?
[2017-12-19 15:04:45] [INFO] checking role of cluster node '3'
[2017-12-19 15:04:45] [DEBUG] connecting to: 'host=172.23.101.217 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:45] [DEBUG] set_config():
SET synchronous_commit TO 'local'
[2017-12-19 15:04:45] [DEBUG] is_standby(): SELECT pg_catalog.pg_is_in_recovery()
[2017-12-19 15:04:45] [INFO] checking role of cluster node '1'
[2017-12-19 15:04:45] [DEBUG] connecting to: 'host=172.23.101.213 user=fwcuser_repmgr dbname=repmgr_db connect_timeout=10 fallback_application_name='repmgr''
[2017-12-19 15:04:45] [DEBUG] set_config():
SET synchronous_commit TO 'local'
[2017-12-19 15:04:45] [DEBUG] is_standby(): SELECT pg_catalog.pg_is_in_recovery()
[2017-12-19 15:04:45] [ERROR] unable to connect to master node
[2017-12-19 15:04:45] [INFO] repmgrd terminating...
Этот же журнал также находится в другом режиме ожидания. Есть идеи? ТИА.