Описание тега spark-submit
NoneSpark-submit - это сценарий, который может запускать код apache-spark, написанный, например, на java, scala или python.
0
ответов
Опции команды Spark-submit --num-executors
У меня есть следующая конфигурация свечи: 1 мастер и 2 рабочих Каждый работник имеет 88 ядер, следовательно, общее количество нет. ядер 176 Каждый работник имеет 502 ГБ памяти, поэтому общий объем доступной памяти составляет 1004 ГБ. Теперь я хочу з…
23 авг '18 в 09:46
3
ответа
Не удалось отправить локальный файл JAR в кластер искры: java.nio.file.NoSuchFileException
~/spark/spark-2.1.1-bin-hadoop2.7/bin$ ./spark-submit --master spark://192.168.42.80:32141 --deploy-mode cluster file:///home/me/workspace/myproj/target/scala-2.11/myproj-assembly-0.1.0.jar Running Spark using the REST application submission protoco…
20 июн '17 в 20:49
1
ответ
Аргумент CLI с помощью spark-submit при выполнении файла python
Я пытаюсь преобразовать таблицы сервера SQL в формат.csv с помощью кода ниже в pyspark. from pyspark import SparkContext sc = SparkContext("local", "Simple App") from pyspark.sql import SQLContext, Row sqlContext = SQLContext(sc) df = sqlContext.rea…
07 сен '17 в 08:17
0
ответов
Не в состоянии запустить спарк-подчинение после создания банки от Maven
Я создал банку, используя mavan и intellij, и попытался запустить банку. Я получаю следующую ошибку. вот моя искра отправить команду искры-отправить --class demo.rtdv.testfirst /home/sa/kafdata/jars_data/demov2.jar java.lang.ClassNotFoundException: …
10 янв '19 в 17:55
22
ответа
Как остановить отображение сообщений INFO на спарк-консоли?
Я хотел бы остановить различные сообщения, которые приходят на спарк-оболочку. Я пытался редактировать log4j.properties файл, чтобы остановить эти сообщения. Вот содержимое log4j.properties # Define the root logger with appender file log4j.rootCateg…
05 янв '15 в 14:04
0
ответов
Импорт внешних модулей в spark python
У меня есть работа EMR с приложением pyspark. Мой код включает в себя некоторые внешние пакеты и некоторые файлы для поиска. Это иерархия файловой системы, когда я попробовал то же самое в локальной коробке. [1] Wordcount.py -> spark file [2] Tem…
24 фев '17 в 12:58
1
ответ
Задача выполняется только на одном исполнителе в спарке
Я использую код ниже в спарк с использованием Java. Код Test.java package com.sample; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.sp…
22 ноя '18 в 07:37
0
ответов
Режим Yarn-Cluster - ApplicationMaster: SparkContext не инициализировался после ожидания 100000 мс
В моей программе pyspark у меня есть как, from pyspark import SparkConf, SparkContext, SQLContex conf=SparkConf() conf.setAppName("spark_name") conf.set("spark.dynamicAllocation.enabled", "true") conf.set("spark.shuffle.service.enabled", "true") sc …
06 фев '17 в 21:07
1
ответ
Как добавить модуль Python из директории site-package conda для spark-submit?
Мне нужно запустить приложение PySpark (v1.6.3). Здесь --py-files флаг для добавления файлов.zip, .egg или.py. Если бы у меня был пакет / модуль Python в /usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzyКак бы я включил весь этот модуль? Внутри …
25 июн '17 в 15:06
1
ответ
Режим кластера Spark-submit - NoClassDefFoundError
Я получаю ниже ошибку при отправке работы в режиме кластера. - модель клиента режима развертывания работает нормально /usr/spark2.0.2/bin/ spark-submit --name hello --master yarn --deploy-mode client --executor-memory 1g --executor-cores 1 --num-exe…
08 июл '18 в 14:42
2
ответа
Передача аргументов из файла в несколько заданий поиска
Можно ли иметь один главный файл, в котором хранится список аргументов, на который можно ссылаться из spark-submit команда? Пример файла свойств, configurations.txt (не обязательно должен быть.txt): school_library = "central" school_canteen = "Nothe…
30 авг '18 в 11:35
0
ответов
Как получить анонимные функции для работы с Spark (Scala) из IntelliJ Debug - Автономный кластер
Я гуглил это несколько дней. Большая картина: я пытаюсь обработать XML-файлы из RDD[String], используя любые необходимые средства - scala-xml, spark-xml или развернуть свой собственный обработчик XML, который достаточно хорош для конкретного источни…
07 авг '17 в 06:02
1
ответ
Каков наилучший способ рассчитать --executor-memory --num-executors --executor-core в spark
У меня кластер содержит 1 ведущий и 5 ведомых (узел), каждый из них 32 ядра и 64 ГБ памяти. Есть ли шаблон для расчета следующего параметра в подаче искры с пряжей --executor-memory --num-executors --executor-cores
26 июн '18 в 17:57
1
ответ
Где разместить приложение Spark при отправке в Kubernetes?
У меня такой же случай, как и в этой теме. Spark на K8s - ошибка: режим kube не поддерживает ссылки на приложения в локальной системе Я запускаю Спарк из контейнера. https://github.com/gettyimages/docker-spark/blob/master/Dockerfile bin/spark-submit…
07 июл '18 в 08:01
1
ответ
Ошибка подтверждения отправки: ClassNotFoundException
build.sbt lazy val commonSettings = Seq( organization := "com.me", version := "0.1.0", scalaVersion := "2.11.0" ) lazy val counter = (project in file("counter")). settings(commonSettings:_*) Счетчик / build.sbt name := "counter" mainClass := Some("C…
21 июн '17 в 19:07
2
ответа
Разделение значений не является членом (String, String)
Я пытаюсь прочитать данные из Kafka и сохранения в таблицах Cassandra через Spark RDD. Получение ошибки при компиляции кода: /root/cassandra-count/src/main/scala/KafkaSparkCassandra.scala:69: value split is not a member of (String, String) [error] v…
13 июн '17 в 10:00
0
ответов
Как сделать spark-submit менее многословным?? и просто отобразить вывод?
Я написал приложение в Spark, используя Python (pyspark)! Я хочу запустить его, используя метод spark-submit. Работает нормально, но слишком многословно. Как я могу настроить, чтобы разрешить только вывод для отображения!
03 окт '18 в 10:08
2
ответа
Как убедиться, что главный узел Spark использует рабочие узлы? (Google кластер)
Я только что создал кластер Google Cloud (1 мастер и 6 рабочих) и по умолчанию настроен Spark. У меня есть чистый код Python, который использует NLTK для построения дерева зависимостей для каждой строки из текстового файла. Когда я запускаю этот код…
08 авг '18 в 18:50
0
ответов
Почему загрузка 4000 изображений в Redis с использованием spark-submit занимает больше времени (9 минут), чем загрузка этих же изображений в HBase (2,5 минуты)?
Загрузка изображений в Redis должна выполняться намного быстрее, чем при использовании Hbase, поскольку Redis работает с оперативной памятью, а HBase использует HDFS для хранения данных. Я был удивлен, когда я загрузил 4000 изображений в Redis, это …
05 июл '18 в 12:32
0
ответов
Выполнение Spark-Submit: в JAR не задан основной класс; пожалуйста, укажите один с --class
У меня есть следующий скрипт spark-submit: #!/usr/bin/env bash time spark-submit \ --master local[*] \ --driver-memory 45G \ --executor-memory 30G \ --jars /jar/spark-csv_2.10-1.5.0.jar, /jar/commons-csv-1.2.jar \ spark_main.py Где "/jar" - это папк…
10 ноя '17 в 02:27