pycharm: как импортировать pyspark в pycharm

Я выполнил довольно хорошую работу в Java/Scala, где я могу запустить тестовую работу непосредственно из программы main(), если я добавлю требуемый искровой jar в maven pom.xml.

Сейчас я начинаю работать с pyspark. Мне интересно, могу ли я сделать что-то подобное? Например, я использую pycharm для запуска задания wordCount:

введите описание изображения здесь

Если я просто запускаю программу main(), я получаю следующую ошибку:

Traceback (most recent call last):
  File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 145, in <module>
    profiler.run(file)
  File "/Applications/PyCharm.app/Contents/helpers/profiler/run_profiler.py", line 84, in run
    pydev_imports.execfile(file, globals, globals)  # execute the script
  File "/Users/edamame/PycharmProjects/myWordCount/myWordCount.py", line 6, in <module>
    from pyspark import SparkContext
ImportError: No module named pyspark

Process finished with exit code 1

Мне интересно, как мне импортировать pyspark здесь? так что я мог запустить некоторое тестовое задание из программы main(), как в Java/Scala.

Я также попытался отредактировать путь интерпретатора: введите описание изображения здесь

и мой скриншот из Run -> Edit Configuration:

введите описание изображения здесь

Последний снимок экрана со структурой моего проекта: введите описание изображения здесь

Я что-то здесь пропустил? Спасибо!

2 ответа

Я наконец-то получил работу, выполнив действия, описанные в этом посте. Это действительно полезно!

https://medium.com/data-science-cafe/pycharm-and-apache-spark-on-mac-os-x-990af6dc6f38

Я добавил py4j-xxx-src.zip и pyspark.zip в папку $SPARK_HOME/python/lib в структуру проекта (предпочтения> Проект> Структура проекта, а затем выполнил команду "+ Добавить корень содержимого"), и она работала нормально.

PS: Pycharm уже прочитал $PYTHONPATH и $ SPARK_HOME из os env, который был установлен в.bashrc/.bash_profile

Другие вопросы по тегам