Невозможно загрузить pyspark внутри virtualenv
Я установил pyspark в python virtualenv. Я также установил jupyterlab, который был недавно выпущен http://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html в virtualenv. Я не смог запустить pyspark внутри jupyter-notebook таким образом, чтобы у меня была доступна переменная SparkContext.
3 ответа
Первый огонь Виртуален
source venv/bin/activate
export SPARK_HOME={path_to_venv}/lib/python2.7/site-packages/pyspark
export PYSPARK_DRIVER_PYTHON=jupyter-lab
До этого я надеюсь, что вы сделали:pip install pyspark
а также pip install jupyterlab
внутри вашего virtualenv
Чтобы проверить, как только ваш jupyterlab открыт, введите sc
в поле в jupyterlab, и у вас должен быть доступен объект SparkContext, и результат должен быть таким:
SparkContext
Spark UI
Version
v2.2.1
Master
local[*]
AppName
PySparkShell
В моем случае при работе с windows, python 3.7.4 и spark 3.1.1 проблема заключалась в том, что pyspark искал несуществующий python3.exe. Я сделал копию venv/Scripts/python.exe и переименовал venv/Scripts/python3.exe.
Вам нужно экспортировать ваш $PYSPARK_PYTHON с вашим virtualenv
export PYSPARK_PYTHON={path/to/your/virtualenv}/bin/python
Это решило мое дело.