Описание тега spark-submit

NoneSpark-submit - это сценарий, который может запускать код apache-spark, написанный, например, на java, scala или python.
0 ответов

Опции команды Spark-submit --num-executors

У меня есть следующая конфигурация свечи: 1 мастер и 2 рабочих Каждый работник имеет 88 ядер, следовательно, общее количество нет. ядер 176 Каждый работник имеет 502 ГБ памяти, поэтому общий объем доступной памяти составляет 1004 ГБ. Теперь я хочу з…
23 авг '18 в 09:46
3 ответа

Не удалось отправить локальный файл JAR в кластер искры: java.nio.file.NoSuchFileException

~/spark/spark-2.1.1-bin-hadoop2.7/bin$ ./spark-submit --master spark://192.168.42.80:32141 --deploy-mode cluster file:///home/me/workspace/myproj/target/scala-2.11/myproj-assembly-0.1.0.jar Running Spark using the REST application submission protoco…
20 июн '17 в 20:49
1 ответ

Аргумент CLI с помощью spark-submit при выполнении файла python

Я пытаюсь преобразовать таблицы сервера SQL в формат.csv с помощью кода ниже в pyspark. from pyspark import SparkContext sc = SparkContext("local", "Simple App") from pyspark.sql import SQLContext, Row sqlContext = SQLContext(sc) df = sqlContext.rea…
07 сен '17 в 08:17
0 ответов

Не в состоянии запустить спарк-подчинение после создания банки от Maven

Я создал банку, используя mavan и intellij, и попытался запустить банку. Я получаю следующую ошибку. вот моя искра отправить команду искры-отправить --class demo.rtdv.testfirst /home/sa/kafdata/jars_data/demov2.jar java.lang.ClassNotFoundException: …
10 янв '19 в 17:55
22 ответа

Как остановить отображение сообщений INFO на спарк-консоли?

Я хотел бы остановить различные сообщения, которые приходят на спарк-оболочку. Я пытался редактировать log4j.properties файл, чтобы остановить эти сообщения. Вот содержимое log4j.properties # Define the root logger with appender file log4j.rootCateg…
05 янв '15 в 14:04
0 ответов

Импорт внешних модулей в spark python

У меня есть работа EMR с приложением pyspark. Мой код включает в себя некоторые внешние пакеты и некоторые файлы для поиска. Это иерархия файловой системы, когда я попробовал то же самое в локальной коробке. [1] Wordcount.py -> spark file [2] Tem…
24 фев '17 в 12:58
1 ответ

Задача выполняется только на одном исполнителе в спарке

Я использую код ниже в спарк с использованием Java. Код Test.java package com.sample; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.sp…
22 ноя '18 в 07:37
0 ответов

Режим Yarn-Cluster - ApplicationMaster: SparkContext не инициализировался после ожидания 100000 мс

В моей программе pyspark у меня есть как, from pyspark import SparkConf, SparkContext, SQLContex conf=SparkConf() conf.setAppName("spark_name") conf.set("spark.dynamicAllocation.enabled", "true") conf.set("spark.shuffle.service.enabled", "true") sc …
06 фев '17 в 21:07
1 ответ

Как добавить модуль Python из директории site-package conda для spark-submit?

Мне нужно запустить приложение PySpark (v1.6.3). Здесь --py-files флаг для добавления файлов.zip, .egg или.py. Если бы у меня был пакет / модуль Python в /usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzyКак бы я включил весь этот модуль? Внутри …
1 ответ

Режим кластера Spark-submit - NoClassDefFoundError

Я получаю ниже ошибку при отправке работы в режиме кластера. - модель клиента режима развертывания работает нормально /usr/spark2.0.2/bin/ spark-submit --name hello --master yarn --deploy-mode client --executor-memory 1g --executor-cores 1 --num-exe…
08 июл '18 в 14:42
2 ответа

Передача аргументов из файла в несколько заданий поиска

Можно ли иметь один главный файл, в котором хранится список аргументов, на который можно ссылаться из spark-submit команда? Пример файла свойств, configurations.txt (не обязательно должен быть.txt): school_library = "central" school_canteen = "Nothe…
30 авг '18 в 11:35
0 ответов

Как получить анонимные функции для работы с Spark (Scala) из IntelliJ Debug - Автономный кластер

Я гуглил это несколько дней. Большая картина: я пытаюсь обработать XML-файлы из RDD[String], используя любые необходимые средства - scala-xml, spark-xml или развернуть свой собственный обработчик XML, который достаточно хорош для конкретного источни…
1 ответ

Каков наилучший способ рассчитать --executor-memory --num-executors --executor-core в spark

У меня кластер содержит 1 ведущий и 5 ведомых (узел), каждый из них 32 ядра и 64 ГБ памяти. Есть ли шаблон для расчета следующего параметра в подаче искры с пряжей --executor-memory --num-executors --executor-cores
26 июн '18 в 17:57
1 ответ

Где разместить приложение Spark при отправке в Kubernetes?

У меня такой же случай, как и в этой теме. Spark на K8s - ошибка: режим kube не поддерживает ссылки на приложения в локальной системе Я запускаю Спарк из контейнера. https://github.com/gettyimages/docker-spark/blob/master/Dockerfile bin/spark-submit…
07 июл '18 в 08:01
1 ответ

Ошибка подтверждения отправки: ClassNotFoundException

build.sbt lazy val commonSettings = Seq( organization := "com.me", version := "0.1.0", scalaVersion := "2.11.0" ) lazy val counter = (project in file("counter")). settings(commonSettings:_*) Счетчик / build.sbt name := "counter" mainClass := Some("C…
21 июн '17 в 19:07
2 ответа

Разделение значений не является членом (String, String)

Я пытаюсь прочитать данные из Kafka и сохранения в таблицах Cassandra через Spark RDD. Получение ошибки при компиляции кода: /root/cassandra-count/src/main/scala/KafkaSparkCassandra.scala:69: value split is not a member of (String, String) [error] v…
0 ответов

Как сделать spark-submit менее многословным?? и просто отобразить вывод?

Я написал приложение в Spark, используя Python (pyspark)! Я хочу запустить его, используя метод spark-submit. Работает нормально, но слишком многословно. Как я могу настроить, чтобы разрешить только вывод для отображения!
03 окт '18 в 10:08
2 ответа

Как убедиться, что главный узел Spark использует рабочие узлы? (Google кластер)

Я только что создал кластер Google Cloud (1 мастер и 6 рабочих) и по умолчанию настроен Spark. У меня есть чистый код Python, который использует NLTK для построения дерева зависимостей для каждой строки из текстового файла. Когда я запускаю этот код…
0 ответов

Почему загрузка 4000 изображений в Redis с использованием spark-submit занимает больше времени (9 минут), чем загрузка этих же изображений в HBase (2,5 минуты)?

Загрузка изображений в Redis должна выполняться намного быстрее, чем при использовании Hbase, поскольку Redis работает с оперативной памятью, а HBase использует HDFS для хранения данных. Я был удивлен, когда я загрузил 4000 изображений в Redis, это …
05 июл '18 в 12:32
0 ответов

Выполнение Spark-Submit: в JAR не задан основной класс; пожалуйста, укажите один с --class

У меня есть следующий скрипт spark-submit: #!/usr/bin/env bash time spark-submit \ --master local[*] \ --driver-memory 45G \ --executor-memory 30G \ --jars /jar/spark-csv_2.10-1.5.0.jar, /jar/commons-csv-1.2.jar \ spark_main.py Где "/jar" - это папк…
10 ноя '17 в 02:27