Как подключиться к спарк кластеру с помощью клиента R
У меня есть кластер с запущенным Cloudera CDH. Мне нужно подключить мои R-программы (работающие на моем ноутбуке) к Spark, работающему в кластере.
Однако, если я пытаюсь подключить локальный R через Sparklyr, он выдает ошибку. Так как поиск по дому Spark на ноутбуке сам по себе означает, что на моем ноутбуке нужно установить spark, но я не могу этого сделать.
Я гуглил и обнаружил, что мы можем установить SparkR и использовать R со Spark. Тем не менее, для использования sparkR, что я должен сделать:
- установить SparkR на все узлы кластера?
- Как настроить использование SparkR?