Как использовать графические рамки внутри SPARK в кластере HDInsight
Я настроил кластер SPARK в HDInsight и пытался использовать GraphFrames, используя это руководство.
Я уже использовал пользовательские сценарии при создании кластера, чтобы включить GraphX на кластере искр, как описано здесь.
Когда я запускаю блокнот,
import org.apache.spark.sql._
import org.apache.spark.sql.functions._
import org.graphframes._
я получаю следующую ошибку
<console>:45: error: object graphframes is not a member of package org
import org.graphframes._
^
Я пытался установить graphframes
от искрового терминала через Jupyter с помощью следующей команды:
$SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5
но все же я не могу заставить его работать. Я новичок в Spark и HDInsight, поэтому кто-то может указать, что еще мне нужно установить в этом кластере, чтобы это работало.
2 ответа
Сегодня это работает в спарк-оболочке, но не работает в ноутбуке Jupyter. Поэтому, когда вы запустите это: $SPARK_HOME/bin/spark-shell --packages graphframes:graphframes:0.1.0-spark1.5 Это работает (по крайней мере на версии кластера spark 1.6) в контексте этого сеанса spark-shell. Но в jupyter в настоящее время нет возможности загружать пакеты. Эта функция будет добавлена в ближайшее время в ноутбуки Jupyter в кластерах. А пока вы можете использовать spark-shell или spark-submit и т. Д.
После того, как вы загрузите или импортируете библиотеки графических фреймов из репозитория Maven, вам необходимо перезапустить кластер, чтобы подключить библиотеку.
Так что это работает для меня.