Q: IBM Cloud Private CE - фатально: [9.29.100.159] => Не удалось запустить компонент Etcd

Сначала установите ICP CE 2.1.0 на виртуальную машину Ubuntu 16.04.03, работающую на ESXi5.5. Виртуальная машина имеет 4vCPU с 16 ГБ оперативной памяти и 170 ГБ (маленький я знаю). Установка выполняется 10 минут и завершается неудачно. Я запустил установку с -vvv, и она не дает каких-либо существенных идей.

TASK [master : Waiting for Etcd to start] **************************************
task path: /installer/playbook/roles/master/tasks/kube-service.yaml:6
Using module file /installer/playbook/library/cfc_wait_for.py
<9.29.100.159> ESTABLISH SSH CONNECTION FOR USER: root
<9.29.100.159> SSH: EXEC ssh -C -o CheckHostIP=no -o LogLevel=ERROR -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o 'IdentityFile="cluster/ssh_key"' -o KbdInteractiveAuthentication=no -o PreferredAuthentications=gssapi-with-mic,gssapi-keyex,hostbased,publickey -o PasswordAuthentication=no -o User=root -o ConnectTimeout=10 9.29.100.159 '/bin/bash -c '"'"'echo ~ && sleep 0'"'"''
<9.29.100.159> (0, '/root\n', '')
<9.29.100.159> ESTABLISH SSH CONNECTION FOR USER: root
<9.29.100.159> SSH: EXEC ssh -C -o CheckHostIP=no -o LogLevel=ERROR -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o 'IdentityFile="cluster/ssh_key"' -o KbdInteractiveAuthentication=no -o PreferredAuthentications=gssapi-with-mic,gssapi-keyex,hostbased,publickey -o PasswordAuthentication=no -o User=root -o ConnectTimeout=10 9.29.100.159 '/bin/bash -c '"'"'( umask 77 && mkdir -p "` echo /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067 `" && echo ansible-tmp-1511385912.24-67181235419067="` echo /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067 `" ) && sleep 0'"'"''
<9.29.100.159> (0, 'ansible-tmp-1511385912.24-67181235419067=/root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067\n', '')
<9.29.100.159> PUT /tmp/tmp_LQQz6 TO /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067/cfc_wait_for.py
<9.29.100.159> SSH: EXEC sftp -b - -C -o CheckHostIP=no -o LogLevel=ERROR -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o 'IdentityFile="cluster/ssh_key"' -o KbdInteractiveAuthentication=no -o PreferredAuthentications=gssapi-with-mic,gssapi-keyex,hostbased,publickey -o PasswordAuthentication=no -o User=root -o ConnectTimeout=10 '[9.29.100.159]'
<9.29.100.159> (0, 'sftp> put /tmp/tmp_LQQz6 /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067/cfc_wait_for.py\n', '')
<9.29.100.159> ESTABLISH SSH CONNECTION FOR USER: root
<9.29.100.159> SSH: EXEC ssh -C -o CheckHostIP=no -o LogLevel=ERROR -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o 'IdentityFile="cluster/ssh_key"' -o KbdInteractiveAuthentication=no -o PreferredAuthentications=gssapi-with-mic,gssapi-keyex,hostbased,publickey -o PasswordAuthentication=no -o User=root -o ConnectTimeout=10 9.29.100.159 '/bin/bash -c '"'"'chmod u+x /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067/ /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067/cfc_wait_for.py && sleep 0'"'"''
<9.29.100.159> (0, '', '')
<9.29.100.159> ESTABLISH SSH CONNECTION FOR USER: root
<9.29.100.159> SSH: EXEC ssh -C -o CheckHostIP=no -o LogLevel=ERROR -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o 'IdentityFile="cluster/ssh_key"' -o KbdInteractiveAuthentication=no -o PreferredAuthentications=gssapi-with-mic,gssapi-keyex,hostbased,publickey -o PasswordAuthentication=no -o User=root -o ConnectTimeout=10 -tt 9.29.100.159 '/bin/bash -c '"'"'/usr/bin/python /root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067/cfc_wait_for.py; rm -rf "/root/.ansible/tmp/ansible-tmp-1511385912.24-67181235419067/" > /dev/null 2>&1 && sleep 0'"'"''
<9.29.100.159> (0, '\r\n{"msg": "The Etcd component failed to start. For more details, see https://ibm.biz/etcd-fails.", "failed": true, "elapsed": 1965, "invocation": {"module_args": {"active_connection_states": ["ESTABLISHED", "SYN_SENT", "SYN_RECV", "FIN_WAIT1", "FIN_WAIT2", "TIME_WAIT"], "state": "started", "port": 4001, "delay": 0, "msg": "The Etcd component failed to start. For more details, see https://ibm.biz/etcd-fails.", "host": "9.29.100.159", "sleep": 1, "timeout": 600, "exclude_hosts": null, "search_regex": null, "path": null, "connect_timeout": 5}}}\r\n', 'Connection to 9.29.100.159 closed.\r\n')
fatal: [9.29.100.159] => The Etcd component failed to start. For more details, see https://ibm.biz/etcd-fails.

По ссылке https://ibm.biz/etcd-fails вы попадете в раздел 1.2.0 Центра знаний о сбое фланели на рабочем узле.

Что странно, докер ps показывает, что работает etcd

root@sysicpce:~# docker ps
CONTAINER ID        IMAGE               COMMAND                  CREATED             STATUS              PORTS               NAMES
652aab0c1cee        ibmcom/mariadb      "start.sh docker-e..."   17 hours ago        Up 17 hours                             k8s_mariadb_k8s-mariadb-9.29.100.159_kube-system_3b21d2ed8c3e2047c0e457af0e948b97_0
80201425a077        ibmcom/etcd         "etcd --name=etcd0..."   17 hours ago        Up 17 hours                             k8s_etcd_k8s-etcd-9.29.100.159_kube-system_b674f0dc7c07780868387aaea0ba7acc_0
a5be8a1e0c25        ibmcom/pause:3.0    "/pause"                 17 hours ago        Up 17 hours                             k8s_POD_k8s-mariadb-9.29.100.159_kube-system_3b21d2ed8c3e2047c0e457af0e948b97_0
d82b0c6e5fa0        ibmcom/pause:3.0    "/pause"                 17 hours ago        Up 17 hours                             k8s_POD_k8s-etcd-9.29.100.159_kube-system_b674f0dc7c07780868387aaea0ba7acc_0
6574c3760499        ibmcom/kubernetes   "/hyperkube proxy ..."   18 hours ago        Up 18 hours                             k8s_proxy_k8s-proxy-9.29.100.159_kube-system_708dfdafb2a5d66e99356e10e609f6b1_0
3b4621d57fef        ibmcom/pause:3.0    "/pause"                 18 hours ago        Up 18 hours                             k8s_POD_k8s-proxy-9.29.100.159_kube-system_708dfdafb2a5d66e99356e10e609f6b1_0
root@sysicpce:~#

Как я могу решить это? Где можно / нужно посмотреть дальше?

2 ответа

Исходя из требований к установке, если у вас есть все службы управления, работающие в кластере с одним хостом, вам потребуется как минимум 8 основных процессоров. Если у вас меньше этого, вы можете отключить службы управления.eg замера и мониторинга, например, disabled_management_services: ["metering", "monitor"]] в файле config.yaml. Поскольку у вас 4-х ядерный процессор, вы можете отключить эти сервисы в config.ymal и попытаться выполнить установку снова.

У меня была такая же проблема, с ICP CE 2.1.0 на Ubuntu 16.04, KVM/OpenStack. То же сообщение: "Не удалось запустить компонент Etcd"

Проблема исчезла, когда я добавил правило, разрешающее доступ с 127.0.0.1 к порту 4001 на компьютере ICP.

Другие вопросы по тегам