Описание тега apache-spark-standalone

Описание тега Вопросы с тегом

Используйте для ответа на вопрос, связанный с автономным режимом развертывания Apache Spark (не локальным режимом).

1 ответ

Как сделать драйвер Spark устойчивым к перезагрузкам мастера?

У меня есть кластер Spark Standalone (не YARN/Mesos) и приложение драйвера, работающее (в режиме клиента), которое обращается к этому кластеру для выполнения своих задач. Тем не менее, если я выключаю и перезапускаю мастер и рабочих Spark, драйвер н…

apache-spark apache-spark-standalone

13 окт '16 в 15:38

0 ответов

Spark перезапустить и оптимизировать дамп огромную работу таблицы

Я использую Spark Standalone менеджер кластера. Я сбрасываю огромные столы с runDumpJob метод (см. код ниже). Чтобы запустить несколько runDumpJobпараллельно - звоню runDumpJob из разных тем. Эта проблема Некоторые из runDumpJobсбои и не перезапуска…

15 мар '17 в 13:09

1 ответ

KafkaProducer как широковещательная переменная в интеграции Kafka-Spark

Я пытаюсь прочитать из Kafka и отправить данные в другую очередь Kakfa с помощью Spark. Мой первоначальный подход - создать объект KafkaProducer для каждой записи в разделе RDD, и он работал нормально, но с точки зрения производительности это действ…

apache-spark apache-kafka spark-streaming kafka-producer-api apache-spark-standalone

01 окт '16 в 19:09

0 ответов

Ошибка Spark 2.0 в автономном режиме collect()

Я работаю над Spark2.0(scala) и платформой Play. Я запускаю это приложение в автономном режиме с Intellij IDEA. Мое приложение отлично работает с местным мастером object Utilities { val master = "local" //-------machine learning algorithm val modelF…

scala apache-spark rdd apache-spark-standalone

15 окт '16 в 06:18

1 ответ

Spark Автономный кластер, память на каждого исполнителя

Привет, я запускаю свое приложение Spark с помощью скрипта отправки spark-submit --master spark://Maatari-xxxxxxx.local:7077 --class EstimatorApp /Users/sul.maatari/IdeaProjects/Workshit/target/scala-2.11/Workshit-assembly-1.0.jar --d eploy-mode clu…

apache-spark apache-spark-standalone

18 авг '17 в 15:20

1 ответ

Не все узлы используются в кластере Spark Standalone

Я создал Spark Standalone Cluster с двумя виртуальными машинами.На 1-й виртуальной машине (8 ядер, 64 ГБ памяти) я запустил мастер вручную, используя командуbin/spark-class org.apache.spark.deploy.master.Master,Во 2-й виртуальной машине (8 ядер, 64 …

apache-spark apache-spark-standalone

13 июн '16 в 06:31

1 ответ

Spark работает быстрее в автономном режиме, чем в YARN

Требуются некоторые идеи по искровому исполнению на отдельных и пряжи. У нас есть 4-узловый кластер Cloudera, и в настоящее время производительность нашего приложения при работе в режиме YARN меньше, чем половина того, что мы получаем при выполнении…

performance apache-spark spark-streaming yarn apache-spark-standalone

12 апр '18 в 10:07

2 ответа

Понимание Spark: диспетчер кластеров, главный и драйверный узлы

Прочитав этот вопрос, я хотел бы задать дополнительные вопросы: Cluster Manager - это долговременная служба, на каком узле он работает? Возможно ли, что узел Master и Driver будут одной и той же машиной? Я предполагаю, что где-то должно быть правило…

apache-spark hadoop yarn failover apache-spark-standalone

11 янв '16 в 13:10

5 ответов

Какой тип кластера мне выбрать для Spark?

Я новичок в Apache Spark, и я только что узнал, что Spark поддерживает три типа кластеров: Автономный - это означает, что Spark будет управлять своим собственным кластером YARN - с помощью менеджера ресурсов Hadoop YARN Mesos - проект менеджера ресу…

apache-spark yarn mesos apache-spark-standalone

22 фев '15 в 23:44

0 ответов

Локальная искра - нет файловой системы для схемы: wasb

Я пытаюсь зарегистрировать хранилище BLOB-объектов Azure в моем контексте потоковой передачи искры, но получаю следующую ошибку:- Код:- SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount"); JavaStreamingContext ssc = new JavaStre…

azure spark-streaming apache-spark-standalone

21 сен '17 в 20:30

0 ответов

Искра Динамическое распределение ресурсов в автономном

У меня есть вопрос / проблема относительно динамического распределения ресурсов. Я использую спарк 1.6.2 с автономным диспетчером кластеров. У меня один рабочий с 2 ядрами. Я установил следующие аргументы в файле spark-defaults.conf на всех моих у…

apache-spark apache-spark-standalone

27 окт '16 в 08:11

1 ответ

Журнал искры не возвращается отправлено водителю, сообщения существуют только в рабочих

Я наблюдаю очень странное поведение кластера Spark, которым я только начал пользоваться. Нормальное поведение для ведения журнала, когда один запускается spark-submit Вы увидите сообщения журнала, например, так: INFO 2016-11-04 13:14:10,671 org.apac…

apache-spark logging apache-spark-standalone

04 ноя '16 в 13:50

0 ответов

SPARK 2.4 Standalone + несколько рабочих на одном многоядерном сервере; Материалы ждут ресурсов

На разумно оборудованном 64-битном (домашнем) сервере Fedora 12-Cores а также 64gb-RAM, Я имею Spark 2.4 работает в Standalone режим со следующей конфигурацией в ./spark-env.sh (где не показаны элементы в этом файле, которые я оставил закомментирова…

apache-spark pyspark jupyter-notebook apache-spark-standalone

21 дек '18 в 07:29

0 ответов

Spark Streaming - остановленный рабочий выдает исключение FileNotFoundException

Я запускаю потоковое приложение в кластере, состоящем из трех узлов, каждый с работником и тремя исполнителями (всего 9 исполнителей). Я использую спарк автономный режим (версия 2.1.1). Приложение запускается командой spark-submit с опцией --deploy-…

apache-spark spark-streaming apache-spark-2.0 apache-spark-standalone

09 сен '17 в 11:56

0 ответов

Модульные тесты с использованием Spark Session: SparkContext был закрыт

У нас большой проект с несколькими наборами тестов, и каждый набор тестов имеет в среднем 3 теста. Для наших модульных тестов мы используем Spark Standalone и, следовательно, не Yarn в качестве менеджера ресурсов. Каждый набор тестов: Инициализирует…

scala apache-spark sbt scalatest apache-spark-standalone

14 янв '19 в 18:23

0 ответов

Отправка локального спарк-приложения в удаленный кластер (без менеджера кластера)

У меня есть установленный кластер Spark, и в настоящее время все приложения, которые я создаю, я разрабатываю их на своем локальном компьютере с Windows, а затем создаю набор jar-файлов (используя Maven), которые копирую в этот удаленный кластер и з…

apache-spark apache-spark-standalone

18 янв '19 в 00:16

1 ответ

Метод Apache Spark не найден sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;

Я столкнулся с этой проблемой при запуске сценария автоматической обработки данных в spark-shell. Первые несколько итераций работают нормально, но всегда рано или поздно сталкиваются с этой ошибкой. Я погуглил эту проблему, но не нашел точного соотв…

scala apache-spark apache-spark-standalone spark-shell

23 янв '19 в 09:12

2 ответа

Как управлять несколькими исполнителями на рабочих узлах с помощью автономного кластера Spark?

До сих пор я использовал Spark только в кластере Hadoop с YARN в качестве менеджера ресурсов. В этом типе кластера я точно знаю, сколько исполнителей нужно запустить и как работает управление ресурсами. Однако, знайте, что я пытаюсь использовать Авт…

scala apache-spark hadoop cluster-computing apache-spark-standalone

25 янв '19 в 11:26

0 ответов

Как указать путь к подключенному каталогу sshfs по сети в автономной кластерной программе Spark

Я запускаю программу PySpark в автономном кластере Spark с двумя рабочими узлами. Я не использую какую-либо распределенную файловую систему, такую как HDFS, и вместо этого я смонтировал каталог с помощью sshfs. Моей программе требуется каталог кон…

apache-spark pyspark sshfs apache-spark-standalone

11 фев '19 в 08:24

0 ответов

Проблема с разделением RDD при запуске программы als на отдельном кластере Spark

Я запускаю свою программу ALS на спарк-кластере из двух узлов в pyspark. Это нормально работает в течение 20 итераций, если я отключаю checkpointIntervalin als params. Для более чем 20 итераций требуется включение CheckpointInterval. У меня также ес…

apache-spark pyspark apache-spark-standalone

07 фев '19 в 11:07