Описание тега apache-spark-standalone
Используйте для ответа на вопрос, связанный с автономным режимом развертывания Apache Spark (не локальным режимом).
1
ответ
Как сделать драйвер Spark устойчивым к перезагрузкам мастера?
У меня есть кластер Spark Standalone (не YARN/Mesos) и приложение драйвера, работающее (в режиме клиента), которое обращается к этому кластеру для выполнения своих задач. Тем не менее, если я выключаю и перезапускаю мастер и рабочих Spark, драйвер н…
13 окт '16 в 15:38
0
ответов
Spark перезапустить и оптимизировать дамп огромную работу таблицы
Я использую Spark Standalone менеджер кластера. Я сбрасываю огромные столы с runDumpJob метод (см. код ниже). Чтобы запустить несколько runDumpJobпараллельно - звоню runDumpJob из разных тем. Эта проблема Некоторые из runDumpJobсбои и не перезапуска…
15 мар '17 в 13:09
1
ответ
KafkaProducer как широковещательная переменная в интеграции Kafka-Spark
Я пытаюсь прочитать из Kafka и отправить данные в другую очередь Kakfa с помощью Spark. Мой первоначальный подход - создать объект KafkaProducer для каждой записи в разделе RDD, и он работал нормально, но с точки зрения производительности это действ…
01 окт '16 в 19:09
0
ответов
Ошибка Spark 2.0 в автономном режиме collect()
Я работаю над Spark2.0(scala) и платформой Play. Я запускаю это приложение в автономном режиме с Intellij IDEA. Мое приложение отлично работает с местным мастером object Utilities { val master = "local" //-------machine learning algorithm val modelF…
15 окт '16 в 06:18
1
ответ
Spark Автономный кластер, память на каждого исполнителя
Привет, я запускаю свое приложение Spark с помощью скрипта отправки spark-submit --master spark://Maatari-xxxxxxx.local:7077 --class EstimatorApp /Users/sul.maatari/IdeaProjects/Workshit/target/scala-2.11/Workshit-assembly-1.0.jar --d eploy-mode clu…
18 авг '17 в 15:20
1
ответ
Не все узлы используются в кластере Spark Standalone
Я создал Spark Standalone Cluster с двумя виртуальными машинами.На 1-й виртуальной машине (8 ядер, 64 ГБ памяти) я запустил мастер вручную, используя командуbin/spark-class org.apache.spark.deploy.master.Master,Во 2-й виртуальной машине (8 ядер, 64 …
13 июн '16 в 06:31
1
ответ
Spark работает быстрее в автономном режиме, чем в YARN
Требуются некоторые идеи по искровому исполнению на отдельных и пряжи. У нас есть 4-узловый кластер Cloudera, и в настоящее время производительность нашего приложения при работе в режиме YARN меньше, чем половина того, что мы получаем при выполнении…
12 апр '18 в 10:07
2
ответа
Понимание Spark: диспетчер кластеров, главный и драйверный узлы
Прочитав этот вопрос, я хотел бы задать дополнительные вопросы: Cluster Manager - это долговременная служба, на каком узле он работает? Возможно ли, что узел Master и Driver будут одной и той же машиной? Я предполагаю, что где-то должно быть правило…
11 янв '16 в 13:10
5
ответов
Какой тип кластера мне выбрать для Spark?
Я новичок в Apache Spark, и я только что узнал, что Spark поддерживает три типа кластеров: Автономный - это означает, что Spark будет управлять своим собственным кластером YARN - с помощью менеджера ресурсов Hadoop YARN Mesos - проект менеджера ресу…
22 фев '15 в 23:44
0
ответов
Локальная искра - нет файловой системы для схемы: wasb
Я пытаюсь зарегистрировать хранилище BLOB-объектов Azure в моем контексте потоковой передачи искры, но получаю следующую ошибку:- Код:- SparkConf sparkConf = new SparkConf().setAppName("JavaNetworkWordCount"); JavaStreamingContext ssc = new JavaStre…
21 сен '17 в 20:30
0
ответов
Искра Динамическое распределение ресурсов в автономном
У меня есть вопрос / проблема относительно динамического распределения ресурсов. Я использую спарк 1.6.2 с автономным диспетчером кластеров. У меня один рабочий с 2 ядрами. Я установил следующие аргументы в файле spark-defaults.conf на всех моих у…
27 окт '16 в 08:11
1
ответ
Журнал искры не возвращается отправлено водителю, сообщения существуют только в рабочих
Я наблюдаю очень странное поведение кластера Spark, которым я только начал пользоваться. Нормальное поведение для ведения журнала, когда один запускается spark-submit Вы увидите сообщения журнала, например, так: INFO 2016-11-04 13:14:10,671 org.apac…
04 ноя '16 в 13:50
0
ответов
SPARK 2.4 Standalone + несколько рабочих на одном многоядерном сервере; Материалы ждут ресурсов
На разумно оборудованном 64-битном (домашнем) сервере Fedora 12-Cores а также 64gb-RAM, Я имею Spark 2.4 работает в Standalone режим со следующей конфигурацией в ./spark-env.sh (где не показаны элементы в этом файле, которые я оставил закомментирова…
21 дек '18 в 07:29
0
ответов
Spark Streaming - остановленный рабочий выдает исключение FileNotFoundException
Я запускаю потоковое приложение в кластере, состоящем из трех узлов, каждый с работником и тремя исполнителями (всего 9 исполнителей). Я использую спарк автономный режим (версия 2.1.1). Приложение запускается командой spark-submit с опцией --deploy-…
09 сен '17 в 11:56
0
ответов
Модульные тесты с использованием Spark Session: SparkContext был закрыт
У нас большой проект с несколькими наборами тестов, и каждый набор тестов имеет в среднем 3 теста. Для наших модульных тестов мы используем Spark Standalone и, следовательно, не Yarn в качестве менеджера ресурсов. Каждый набор тестов: Инициализирует…
14 янв '19 в 18:23
0
ответов
Отправка локального спарк-приложения в удаленный кластер (без менеджера кластера)
У меня есть установленный кластер Spark, и в настоящее время все приложения, которые я создаю, я разрабатываю их на своем локальном компьютере с Windows, а затем создаю набор jar-файлов (используя Maven), которые копирую в этот удаленный кластер и з…
18 янв '19 в 00:16
1
ответ
Метод Apache Spark не найден sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner;
Я столкнулся с этой проблемой при запуске сценария автоматической обработки данных в spark-shell. Первые несколько итераций работают нормально, но всегда рано или поздно сталкиваются с этой ошибкой. Я погуглил эту проблему, но не нашел точного соотв…
23 янв '19 в 09:12
2
ответа
Как управлять несколькими исполнителями на рабочих узлах с помощью автономного кластера Spark?
До сих пор я использовал Spark только в кластере Hadoop с YARN в качестве менеджера ресурсов. В этом типе кластера я точно знаю, сколько исполнителей нужно запустить и как работает управление ресурсами. Однако, знайте, что я пытаюсь использовать Авт…
25 янв '19 в 11:26
0
ответов
Как указать путь к подключенному каталогу sshfs по сети в автономной кластерной программе Spark
Я запускаю программу PySpark в автономном кластере Spark с двумя рабочими узлами. Я не использую какую-либо распределенную файловую систему, такую как HDFS, и вместо этого я смонтировал каталог с помощью sshfs. Моей программе требуется каталог кон…
11 фев '19 в 08:24
0
ответов
Проблема с разделением RDD при запуске программы als на отдельном кластере Spark
Я запускаю свою программу ALS на спарк-кластере из двух узлов в pyspark. Это нормально работает в течение 20 итераций, если я отключаю checkpointIntervalin als params. Для более чем 20 итераций требуется включение CheckpointInterval. У меня также ес…
07 фев '19 в 11:07