ExecutionSetupException: один или несколько узлов потеряли связь во время запроса
При выполнении запроса в Dremio 4.6.1, установленном в Kubernetes, мы получаем следующее сообщение об ошибке из пользовательского интерфейса Dremio:
ExecutionSetupException: один или несколько узлов потеряли связь во время запроса. Идентифицированные узлы: [dremio-executor-2.dremio-cluster-pod.dremio.svc.cluster.local:0].
Конфигурация Dremio-env имеет следующие настройки: DREMIO_MAX_DIRECT_MEMORY_SIZE_MB=13384 DREMIO_MAX_HEAP_MEMORY_SIZE_MB не задано Мы используем воркеры 16G /8c (всего 10 воркеров) 1 главный координатор с той же конфигурацией Zookeeper с 1G/ 1c
Есть идеи, что вызывает такое поведение?
Выполняя "хвост" живых журналов до того, как рабочий выйдет из строя, вот журналы:
An irrecoverable stack overflow has occurred.
Please check if any of your loaded .so files has enabled executable stack (see man page execstack(8))
#
# A fatal error has been detected by the Java Runtime Environment:
#
# SIGSEGV (0xb) at pc=0x00007f41cdac4fa8, pid=1, tid=0x00007f41dc2ed700
#
# JRE version: OpenJDK Runtime Environment (8.0_262-b10) (build 1.8.0_262-b10)
# Java VM: OpenJDK 64-Bit Server VM (25.262-b10 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# C 0x00007f41cdac4fa8
#
# Core dump written. Default location: /opt/dremio/core or core.1
#
# An error report file with more information is saved as:
# /tmp/hs_err_pid1.log
#
# If you would like to submit a bug report, please visit:
# http://bugreport.java.com/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
#
[error occurred during error reporting , id 0xb]