Невозможно загрузить pyspark внутри virtualenv

Я установил pyspark в python virtualenv. Я также установил jupyterlab, который был недавно выпущен http://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html в virtualenv. Я не смог запустить pyspark внутри jupyter-notebook таким образом, чтобы у меня была доступна переменная SparkContext.

3 ответа

Первый огонь Виртуален

source venv/bin/activate
export SPARK_HOME={path_to_venv}/lib/python2.7/site-packages/pyspark
export PYSPARK_DRIVER_PYTHON=jupyter-lab

До этого я надеюсь, что вы сделали:pip install pyspark а также pip install jupyterlab внутри вашего virtualenv

Чтобы проверить, как только ваш jupyterlab открыт, введите sc в поле в jupyterlab, и у вас должен быть доступен объект SparkContext, и результат должен быть таким:

SparkContext
Spark UI
Version
v2.2.1
Master
local[*]
AppName
PySparkShell

В моем случае при работе с windows, python 3.7.4 и spark 3.1.1 проблема заключалась в том, что pyspark искал несуществующий python3.exe. Я сделал копию venv/Scripts/python.exe и переименовал venv/Scripts/python3.exe.

Вам нужно экспортировать ваш $PYSPARK_PYTHON с вашим virtualenv

export PYSPARK_PYTHON={path/to/your/virtualenv}/bin/python

Это решило мое дело.

Другие вопросы по тегам