Как можно отладить / получить логи для сбоев Java-сервера SparkR?

Я одурманен No status is returned. Java SparkR backend might have failed. ошибка при подгонке glm с помощью Spark. Похоже, что задание фактически выполняется до конца на основе веб-интерфейса Spark, но в какой-то момент во время подбора модели (оно не является согласованным местоположением) SparkR возвращает указанное выше сообщение об ошибке, а затем возвращается в R REPL. Я не вижу нигде журнала, к которому я могу обратиться, чтобы определить проблему. Может ли Ответчик по вопросам направить меня к журналу или предоставить другие отзывы об этой проблеме?

Я вижу, что код генерации ошибок здесь. Похоже, что, возможно, соединение, указанное get(".sparkRCon", .sparkREnv) просто не существует или яростно отвечает пустой строкой во время вычислений? Я в недоумении.

Я на Искре 2.0.0 используя Amazon EMR 5.0,

1 ответ

FWIW - мой опыт с этой ошибкой показывает, что драйвер обычно имеет OOMed (хотя и не единственная причина сбоя драйвера). Все узлы завершили свои операции, но драйвер не удалось при компиляции результата. Устранение неполадок в этом не было очевидным, поскольку SparkR скрывает много ошибок... Я нашел это, выполнив тот же запрос в pyspark и увидев там ошибку Java OOM драйвера.

Другие вопросы по тегам