pycharm: как импортировать pyspark в pycharm
Я выполнил довольно хорошую работу в Java/Scala, где я могу запустить тестовую работу непосредственно из программы main(), если я добавлю требуемый искровой jar в maven pom.xml.
Сейчас я начинаю работать с pyspark. Мне интересно, могу ли я сделать что-то подобное? Например, я использую pycharm для запуска задания wordCount:
Если я просто запускаю программу main(), я получаю следующую ошибку:
Traceback (most recent call last):
File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 145, in <module>
profiler.run(file)
File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 84, in run
pydev_imports.execfile(file, globals, globals) # execute the script
File "/Users/edamame/PycharmProjects/myWordCount/myWordCount.py", line 6, in <module>
from pyspark import SparkContext
ImportError: No module named pyspark
Process finished with exit code 1
Мне интересно, как мне импортировать pyspark здесь? так что я мог запустить некоторое тестовое задание из программы main(), как в Java/Scala.
Я также попытался отредактировать путь интерпретатора:
и мой скриншот из Run -> Edit Configuration:
Последний снимок экрана со структурой моего проекта:
Я что-то здесь пропустил? Спасибо!
2 ответа
Я наконец-то получил работу, выполнив действия, описанные в этом посте. Это действительно полезно!
https://medium.com/data-science-cafe/pycharm-and-apache-spark-on-mac-os-x-990af6dc6f38
Я добавил py4j-xxx-src.zip и pyspark.zip в папку $SPARK_HOME/python/lib в структуру проекта (предпочтения> Проект> Структура проекта, а затем выполнил команду "+ Добавить корень содержимого"), и она работала нормально.
PS: Pycharm уже прочитал $PYTHONPATH и $ SPARK_HOME из os env, который был установлен в.bashrc/.bash_profile