Как настроить переменную SPARK_HOME?

Question

Как настроить переменную SPARK_HOME?

Следуя инструкциям Sparkling Water по ссылке http://h2o-release.s3.amazonaws.com/sparkling-water/rel-2.2/0/index.html.

Запуск в терминале:

~ / InstallFile / SparklingWater / sparkling-water-2.2.0 $ bin / sparkling-shell --conf "spark.executor.memory = 1g"

Пожалуйста, установите переменную SPARK_HOME для вашей установки Spark

16

apache-spark h2o sparkling-water

Источник

user6440286 06 окт '17 в 20:42

2 ответа

Другие вопросы по тегам apache-spark h2o sparkling-water

user7143310 06 окт '17 в 21:27 2017-10-06 21:27 · Answer 1 · 2017-10-06 21:27

Вы должны установить и установить переменную SPARK_HOME, в терминале Unix запустите следующий код для установки переменной:

export SPARK_HOME="/path/to/spark"

Чтобы сохранить этот конфиг, вы должны добавить это в конец вашего.bashrc.

Смотрите это для установки https://www.tutorialspoint.com/apache_spark/apache_spark_installation.htm

user12483346 15 дек '19 в 21:02 2019-12-15 21:02 · Answer 2 · 2019-12-15 21:02

При использовании Jupyter Notebook с Anaconda вызываемая для этого функция findspark.py выполняет следующие действия:

def find():
    spark_home = os.environ.get('SPARK_HOME', None)

    if not spark_home:
        for path in [
            '/usr/local/opt/apache-spark/libexec', # OS X Homebrew
            '/usr/lib/spark/' # AWS Amazon EMR
            # Any other common places to look?
        ]:
            if os.path.exists(path):
                spark_home = path
                break

    if not spark_home:
        raise ValueError("Couldn't find Spark, make sure SPARK_HOME env is set"
                         " or Spark is in an expected location (e.g. from homebrew installation).")

    return spark_home

Итак, мы собираемся выполнить следующую процедуру.

1. Укажите SPARK_HOME и JAVA_HOME

Как мы видели в приведенной выше функции, для Windows нам нужно указать местоположения. Следующая функция - это немного измененная версия этого ответа. Он изменен, потому что также необходимо указать JAVA_HOME, то есть каталог, в который вы его установили. Кроме того, я создал каталог Spark, куда я переместил загруженную версию Spark, которую я использую, для этой процедуры вы можете проверить эту ссылку.

import os 
import sys

def configure_spark(spark_home=None, pyspark_python=None):
    spark_home = spark_home or "/path/to/default/spark/home"
    os.environ['SPARK_HOME'] = spark_home
    os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jre1.8.0_231'

    # Add the PySpark directories to the Python path:
    sys.path.insert(1, os.path.join(spark_home, 'python'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'pyspark'))
    sys.path.insert(1, os.path.join(spark_home, 'python', 'build'))

    # If PySpark isn't specified, use currently running Python binary:
    pyspark_python = pyspark_python or sys.executable
    os.environ['PYSPARK_PYTHON'] = pyspark_python

configure_spark('C:\spark\spark-2.4.4-bin-hadoop2.6')

2. Настройте SparkContext.

При локальной работе вам следует настроить SparkContext следующим образом: (эта ссылка была полезна)

import findspark
from pyspark.conf import SparkConf
from pyspark.context import SparkContext

# Find Spark Locally
location = findspark.find()
findspark.init(location, edit_rc=True)

# Start a SparkContext 
configure = SparkConf().set('spark.driver.host','127.0.0.1')
sc = pyspark.SparkContext(master = 'local', appName='desiredName', conf=configure)

Эта процедура мне понравилась, спасибо!.

user1325423 06 окт '17 в 21:27 2017-10-06 21:27 · Answer 3 · 2017-10-06 21:27

Вам нужно будет загрузить среду зажигания на машину, где вы хотите использовать газированную воду. Это может быть либо локальная загрузка, либо кластерная искра, т.е. на Hadoop.

Переменная SPARK_HOME - это каталог / папка, в которой газированная вода будет определять время срабатывания искры.

В следующем параметре SPARK_HOME у меня есть Spark 2.1, загруженный на локальный компьютер, и путь к нему - это разархивированный спарк 2.1, как показано ниже:

SPARK_HOME=/Users/avkashchauhan/tools/spark-2.1.0-bin-hadoop2.6

$ pwd
 /Users/avkashchauhan/tools/sw2/sparkling-water-2.1.14

Теперь, когда я запускаю sparkling-shell, как показано ниже, он работает нормально:

~/tools/sw2/sparkling-water-2.1.14 $ bin/sparkling-shell                                                                                                                                                                                        

-----
  Spark master (MASTER)     : local[*]
  Spark home   (SPARK_HOME) : /Users/avkashchauhan/tools/spark-2.1.0-bin-hadoop2.6
  H2O build version         : 3.14.0.2 (weierstrass)
  Spark build version       : 2.1.1
  Scala version             : 2.11
----