Модуль Amazon EMR Pyspark не найден

Question

Модуль Amazon EMR Pyspark не найден

Я создал кластер Amazon EMR с уже установленным Spark. Когда я запускаю pyspark из терминала, он входит в терминал pyspark, когда я захожу в свой кластер ssh.

Я загрузил файл с помощью scp, и когда я пытаюсь запустить его с python FileName.py, я получаю ошибку импорта:

from pyspark import SparkContext
ImportError: No module named pyspark

Как это исправить?

11

python amazon-web-services pyspark amazon-emr

Источник

user5017232 12 авг '15 в 22:18

4 ответа

Другие вопросы по тегам python amazon-web-services pyspark amazon-emr

user5058588 22 фев '16 в 04:39 2016-02-22 04:39 · Answer 1 · 2016-02-22 04:39

Я добавляю следующие строки в ~/.bashrc для EMR 4.3:

export SPARK_HOME=/usr/lib/spark
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.XXX-src.zip:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/build:$PYTHONPATH

Вот py4j-0.XXX-src.zip это файл py4j в вашей папке библиотеки spark python Поиск /usr/lib/spark/python/lib/ найти точную версию и заменить XXX с этим номером версии.

Бежать source ~/.bashrc и тебе должно быть хорошо.

user2708667 13 авг '15 в 01:13 2015-08-13 01:13 · Answer 2 · 2015-08-13 01:13

Вам, вероятно, нужно добавить файлы pyspark в путь. Я обычно использую функцию, подобную следующей.

def configure_spark(spark_home=None, pyspark_python=None):
    spark_home = spark_home or "/path/to/default/spark/home"
    os.environ['SPARK_HOME'] = spark_home

    # Add the PySpark directories to the Python path:
    sys.path.insert(1, os.path.join(spark_home, 'python'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'pyspark'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'build'))

    # If PySpark isn't specified, use currently running Python binary:
    pyspark_python = pyspark_python or sys.executable
    os.environ['PYSPARK_PYTHON'] = pyspark_python

Затем вы можете вызвать функцию перед импортом pyspark:

configure_spark('/path/to/spark/home')
from pyspark import SparkContext

Искра дома на узле EMR должна быть что-то вроде /home/hadoop/spark, См. https://aws.amazon.com/articles/Elastic-MapReduce/4926593393724923 для получения дополнительной информации.

user8875079 11 авг '18 в 13:48 2018-08-11 13:48 · Answer 3 · 2018-08-11 13:48

Попробуйте использовать findspark: установить с помощью оболочки pip install findspark,

Образец кода:

# Import package(s).
import findspark
findspark.init()

from pyspark import SparkContext
from pyspark.sql import SQLContext

3

Источник

user8875079 11 авг '18 в 13:48

user1546993 20 мар '17 в 16:45 2017-03-20 16:45 · Answer 4 · 2017-03-20 16:45

Вы можете выполнить файл напрямую, как есть, из командной строки с помощью следующей команды:

spark-submit FileName.py

-1

Источник

user1546993 20 мар '17 в 16:45