Запуск Spark + Scala + Jupyter на Dataproc

Мне еще не удалось заставить Спарк, Скалу и Юпитера сотрудничать. У кого-нибудь есть простой рецепт? Какую версию каждого компонента вы использовали?

2 ответа

Решение

Apache Toree совместим с образом DataProc 1.0, который в настоящее время включает в себя Spark 1.6.1. Я безуспешно пытался использовать его с предварительным изображением, которое включает в себя предварительный просмотр Spark 2.0. Чтобы установить Toree на мастер DataProc, вы можете запустить

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

Spark входит в стандартную комплектацию кластеров Dataproc.

Вот команда gcloud, которую вы можете использовать для создания кластера Dataproc (с именем "dplab"), который включает прослушивание Jupyter на порту 8124:

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

Затем выполните эту команду, чтобы перенаправить порт с вашего хоста на мастер кластера:

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

Откройте localhost:8124 в вашем браузере, и вы должны увидеть страницу Jupyter.

Другие вопросы по тегам