Запуск Spark + Scala + Jupyter на Dataproc
Мне еще не удалось заставить Спарк, Скалу и Юпитера сотрудничать. У кого-нибудь есть простой рецепт? Какую версию каждого компонента вы использовали?
2 ответа
Apache Toree совместим с образом DataProc 1.0, который в настоящее время включает в себя Spark 1.6.1. Я безуспешно пытался использовать его с предварительным изображением, которое включает в себя предварительный просмотр Spark 2.0. Чтобы установить Toree на мастер DataProc, вы можете запустить
sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME
Spark входит в стандартную комплектацию кластеров Dataproc.
Вот команда gcloud, которую вы можете использовать для создания кластера Dataproc (с именем "dplab"), который включает прослушивание Jupyter на порту 8124:
$ gcloud dataproc clusters create dplab \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
--metadata "JUPYTER_PORT=8124" \
--zone=us-central1-c
Затем выполните эту команду, чтобы перенаправить порт с вашего хоста на мастер кластера:
$ gcloud compute ssh dplab-m \
--ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c
Откройте localhost:8124 в вашем браузере, и вы должны увидеть страницу Jupyter.