Как я могу увеличить spark.driver.memoryOverhead в Google dataproc?

Я получаю два типа ошибок при выполнении задания в Google dataproc, и это приводит к тому, что исполнители теряются один за другим, пока не будет потерян последний исполнитель и задание не завершится сбоем. Я установил для своего главного узла значение n1-highmem-2 (2 виртуальных ЦП, 13 ГБ памяти), а для двух рабочих узлов — n1-highmem-8 (8 виртуальных ЦП, 52 ГБ памяти). Две ошибки, которые я получаю:

  • «Контейнер вышел из-за явного запроса на завершение».
  • «Потерян исполнитель x: время ожидания пульса исполнителя истекло»

Насколько я понимаю в том, что я мог видеть в Интернете, мне нужно увеличить spark.executor.memoryOverhead. Я не знаю, правильный это ответ или нет, но я не вижу, как это изменить в консоли Google dataproc, и я не знаю, на что это изменить. Любая помощь будет здорово!

Спасибо, Джим

2 ответа

Вы можете установить свойства Spark на уровне кластера с помощью

      gcloud dataproc clusters create ... --properties spark:<name>=<value>,...

и/или уровень работы с

      gcloud dataproc jobs submit spark ... --properties <name>=<value>,...

Первое требует spark:префикс, последний не имеет. Если установлены оба, последний имеет приоритет. Подробнее см. в этом документе .

Оказывается, память на виртуальный ЦП была ограничением, из-за которого исполнители выходили из строя один за другим. Первоначально я пытался использовать пользовательскую конфигурацию в консольном режиме для кластера, чтобы добавить дополнительную память для каждого виртуального ЦП. Оказывается, в пользовательском интерфейсе есть некоторая ошибка (согласно команде Google Dataproc), которая ограничивает вас от увеличения памяти на виртуальный ЦП (если вы используете ползунок для увеличения памяти сверх максимального значения по умолчанию 6,5 ГБ, настройка кластера завершится ошибкой). ). Однако, если вы используете эквивалент командной строки консоли, он позволяет настроить кластер, а увеличенного объема памяти на виртуальный ЦП было достаточно для выполнения задания без сбоев исполнителей один за другим.

Другие вопросы по тегам