Нужна ли локальная версия Spark при подключении к другому искровому кластеру через sparklyr?

Question

Нужна ли локальная версия Spark при подключении к другому искровому кластеру через sparklyr?

У меня есть производственный кластер R с установленным Rstudio. Пользователи сбалансированы по нагрузке на R-сервер и пишут код там. У меня также есть отдельный кластер Spark, который имеет 4 узла. Используя sparklyr, я легко могу подключиться к своему искровому кластеру через:

sc <- sparklyr::spark_connect("spark://<my cluster>:7077")

Единственное, что я заметил, это то, что когда я делаю это, на рабочем сервере R используется приложение Spark. Я считаю, что это вызывает некоторые проблемы. У меня установлен Spark на обоих производственных серверах R и кластере Spark одновременно SPARK_HOME Расположение /var/lib/Spark,

Я бы не хотел, чтобы Spark был полностью установлен на моих R-серверах, чтобы там не было использования Spark. Как мне это сделать с sparklyr?

0

apache-spark sparklyr

Источник

user4373061 24 май '18 в 18:33

1 ответ

Решение

Другие вопросы по тегам apache-spark sparklyr

user9843191 24 май '18 в 19:54 2018-05-24 19:54 · Accepted Answer · 2018-05-24 19:54

Да, для отправки приложений Spark вам нужна локальная установка Spark. Остальное зависит от режима:

В режиме клиента драйвер будет работать на том же узле, с которого вы подаете заявку.
В режиме кластера драйвер будет работать на кластере. Там не будет локальный процесс Spark. Это, однако, не поддерживает интерактивную обработку.