Нужна ли локальная версия Spark при подключении к другому искровому кластеру через sparklyr?

У меня есть производственный кластер R с установленным Rstudio. Пользователи сбалансированы по нагрузке на R-сервер и пишут код там. У меня также есть отдельный кластер Spark, который имеет 4 узла. Используя sparklyr, я легко могу подключиться к своему искровому кластеру через:

sc <- sparklyr::spark_connect("spark://<my cluster>:7077")

Единственное, что я заметил, это то, что когда я делаю это, на рабочем сервере R используется приложение Spark. Я считаю, что это вызывает некоторые проблемы. У меня установлен Spark на обоих производственных серверах R и кластере Spark одновременно SPARK_HOME Расположение /var/lib/Spark,

Я бы не хотел, чтобы Spark был полностью установлен на моих R-серверах, чтобы там не было использования Spark. Как мне это сделать с sparklyr?

1 ответ

Решение

Да, для отправки приложений Spark вам нужна локальная установка Spark. Остальное зависит от режима:

  • В режиме клиента драйвер будет работать на том же узле, с которого вы подаете заявку.
  • В режиме кластера драйвер будет работать на кластере. Там не будет локальный процесс Spark. Это, однако, не поддерживает интерактивную обработку.
Другие вопросы по тегам