Описание тега apache-spark-standalone

Используйте для ответа на вопрос, связанный с автономным режимом развертывания Apache Spark (не локальным режимом).
1 ответ

Как сделать драйвер Spark устойчивым к перезагрузкам мастера?

У меня есть кластер Spark Standalone (не YARN/Mesos) и приложение драйвера, работающее (в режиме клиента), которое обращается к этому кластеру для выполнения своих задач. Тем не менее, если я выключаю и перезапускаю мастер и рабочих Spark, драйвер н…
13 окт '16 в 15:38
0 ответов

Spark перезапустить и оптимизировать дамп огромную работу таблицы

Я использую Spark Standalone менеджер кластера. Я сбрасываю огромные столы с runDumpJob метод (см. код ниже). Чтобы запустить несколько runDumpJobпараллельно - звоню runDumpJob из разных тем. Эта проблема Некоторые из runDumpJobсбои и не перезапуска…
1 ответ

KafkaProducer как широковещательная переменная в интеграции Kafka-Spark

Я пытаюсь прочитать из Kafka и отправить данные в другую очередь Kakfa с помощью Spark. Мой первоначальный подход - создать объект KafkaProducer для каждой записи в разделе RDD, и он работал нормально, но с точки зрения производительности это действ…
0 ответов

Ошибка Spark 2.0 в автономном режиме collect()

Я работаю над Spark2.0(scala) и платформой Play. Я запускаю это приложение в автономном режиме с Intellij IDEA. Мое приложение отлично работает с местным мастером object Utilities { val master = "local" //-------machine learning algorithm val modelF…
1 ответ

Spark Автономный кластер, память на каждого исполнителя

Привет, я запускаю свое приложение Spark с помощью скрипта отправки spark-submit --master spark://Maatari-xxxxxxx.local:7077 --class EstimatorApp /Users/sul.maatari/IdeaProjects/Workshit/target/scala-2.11/Workshit-assembly-1.0.jar --d eploy-mode clu…
18 авг '17 в 15:20
1 ответ

Не все узлы используются в кластере Spark Standalone

Я создал Spark Standalone Cluster с двумя виртуальными машинами.На 1-й виртуальной машине (8 ядер, 64 ГБ памяти) я запустил мастер вручную, используя командуbin/spark-class org.apache.spark.deploy.master.Master,Во 2-й виртуальной машине (8 ядер, 64 …
13 июн '16 в 06:31
1 ответ

Spark работает быстрее в автономном режиме, чем в YARN

Требуются некоторые идеи по искровому исполнению на отдельных и пряжи. У нас есть 4-узловый кластер Cloudera, и в настоящее время производительность нашего приложения при работе в режиме YARN меньше, чем половина того, что мы получаем при выполнении…
2 ответа

Понимание Spark: диспетчер кластеров, главный и драйверный узлы

Прочитав этот вопрос, я хотел бы задать дополнительные вопросы: Cluster Manager - это долговременная служба, на каком узле он работает? Возможно ли, что узел Master и Driver будут одной и той же машиной? Я предполагаю, что где-то должно быть правило…
5 ответов

Какой тип кластера мне выбрать для Spark?

Я новичок в Apache Spark, и я только что узнал, что Spark поддерживает три типа кластеров: Автономный - это означает, что Spark будет управлять своим собственным кластером YARN - с помощью менеджера ресурсов Hadoop YARN Mesos - проект менеджера ресу…
0 ответов

Локальная искра - нет файловой системы для схемы: wasb

Я пытаюсь зарегистрировать хранилище BLOB-объектов Azure в моем контексте потоковой передачи искры, но получаю следующую ошибку:- Код:- SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount"); JavaStreamingContext ssc = new JavaStre…
0 ответов

Искра Динамическое распределение ресурсов в автономном

У меня есть вопрос / проблема относительно динамического распределения ресурсов. Я использую спарк 1.6.2 с автономным диспетчером кластеров. У меня один рабочий с 2 ​​ядрами. Я установил следующие аргументы в файле spark-defaults.conf на всех моих у…
27 окт '16 в 08:11
1 ответ

Журнал искры не возвращается отправлено водителю, сообщения существуют только в рабочих

Я наблюдаю очень странное поведение кластера Spark, которым я только начал пользоваться. Нормальное поведение для ведения журнала, когда один запускается spark-submit Вы увидите сообщения журнала, например, так: INFO 2016-11-04 13:14:10,671 org.apac…
0 ответов

SPARK 2.4 Standalone + несколько рабочих на одном многоядерном сервере; Материалы ждут ресурсов

На разумно оборудованном 64-битном (домашнем) сервере Fedora 12-Cores а также 64gb-RAM, Я имею Spark 2.4 работает в Standalone режим со следующей конфигурацией в ./spark-env.sh (где не показаны элементы в этом файле, которые я оставил закомментирова…
0 ответов

Spark Streaming - остановленный рабочий выдает исключение FileNotFoundException

Я запускаю потоковое приложение в кластере, состоящем из трех узлов, каждый с работником и тремя исполнителями (всего 9 исполнителей). Я использую спарк автономный режим (версия 2.1.1). Приложение запускается командой spark-submit с опцией --deploy-…
0 ответов

Модульные тесты с использованием Spark Session: SparkContext был закрыт

У нас большой проект с несколькими наборами тестов, и каждый набор тестов имеет в среднем 3 теста. Для наших модульных тестов мы используем Spark Standalone и, следовательно, не Yarn в качестве менеджера ресурсов. Каждый набор тестов: Инициализирует…
0 ответов

Отправка локального спарк-приложения в удаленный кластер (без менеджера кластера)

У меня есть установленный кластер Spark, и в настоящее время все приложения, которые я создаю, я разрабатываю их на своем локальном компьютере с Windows, а затем создаю набор jar-файлов (используя Maven), которые копирую в этот удаленный кластер и з…
18 янв '19 в 00:16
1 ответ

Метод Apache Spark не найден sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;

Я столкнулся с этой проблемой при запуске сценария автоматической обработки данных в spark-shell. Первые несколько итераций работают нормально, но всегда рано или поздно сталкиваются с этой ошибкой. Я погуглил эту проблему, но не нашел точного соотв…
2 ответа

Как управлять несколькими исполнителями на рабочих узлах с помощью автономного кластера Spark?

До сих пор я использовал Spark только в кластере Hadoop с YARN в качестве менеджера ресурсов. В этом типе кластера я точно знаю, сколько исполнителей нужно запустить и как работает управление ресурсами. Однако, знайте, что я пытаюсь использовать Авт…
0 ответов

Как указать путь к подключенному каталогу sshfs по сети в автономной кластерной программе Spark

Я запускаю программу PySpark в автономном кластере Spark с двумя рабочими узлами. Я не использую какую-либо распределенную файловую систему, такую ​​как HDFS, и вместо этого я смонтировал каталог с помощью sshfs. Моей программе требуется каталог кон…
0 ответов

Проблема с разделением RDD при запуске программы als на отдельном кластере Spark

Я запускаю свою программу ALS на спарк-кластере из двух узлов в pyspark. Это нормально работает в течение 20 итераций, если я отключаю checkpointIntervalin als params. Для более чем 20 итераций требуется включение CheckpointInterval. У меня также ес…