Почему YARN не может получить исполнителя, если включено динамическое распределение?

Question

Почему YARN не может получить исполнителя, если включено динамическое распределение?

Задания работают плавно при использовании YARN без включения функции динамического выделения. Я использую Spark 1.4.0.

Вот что я пытаюсь сделать:

rdd = sc.parallelize(range(1000000))
rdd.first()

Вот что я получаю в логах:

15/09/08 11:36:12 INFO SparkContext: Starting job: runJob at PythonRDD.scala:366
15/09/08 11:36:12 INFO DAGScheduler: Got job 0 (runJob at PythonRDD.scala:366) with 1 output partitions (allowLocal=true)
15/09/08 11:36:12 INFO DAGScheduler: Final stage: ResultStage 0(runJob at PythonRDD.scala:366)
15/09/08 11:36:12 INFO DAGScheduler: Parents of final stage: List()
15/09/08 11:36:12 INFO DAGScheduler: Missing parents: List()
15/09/08 11:36:12 INFO DAGScheduler: Submitting ResultStage 0 (PythonRDD[1] at RDD at PythonRDD.scala:43), which has no missing parents
15/09/08 11:36:13 INFO MemoryStore: ensureFreeSpace(3560) called with curMem=0, maxMem=278302556
15/09/08 11:36:13 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 3.5 KB, free 265.4 MB)
15/09/08 11:36:13 INFO MemoryStore: ensureFreeSpace(2241) called with curMem=3560, maxMem=278302556
15/09/08 11:36:13 INFO MemoryStore: Block broadcast_0_piece0 stored as bytes in memory (estimated size 2.2 KB, free 265.4 MB)
15/09/08 11:36:13 INFO BlockManagerInfo: Added broadcast_0_piece0 in memory on 192.1.5.212:50079 (size: 2.2 KB, free: 265.4 MB)
15/09/08 11:36:13 INFO SparkContext: Created broadcast 0 from broadcast at DAGScheduler.scala:874
15/09/08 11:36:13 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage 0 (PythonRDD[1] at RDD at PythonRDD.scala:43)
15/09/08 11:36:13 INFO YarnScheduler: Adding task set 0.0 with 1 tasks
15/09/08 11:36:14 INFO ExecutorAllocationManager: Requesting 1 new executor because tasks are backlogged (new desired total will be 1)
15/09/08 11:36:28 WARN YarnScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
15/09/08 11:36:43 WARN YarnScheduler: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
...

Вот скриншот из кластерного интерфейса:

Кто-нибудь может дать мне решение? Даже свинец будет оценен.

3

apache-spark pyspark yarn hortonworks-data-platform apache-spark-1.4

Источник

user2685701 08 сен '15 в 08:49

1 ответ

Решение

Другие вопросы по тегам apache-spark pyspark yarn hortonworks-data-platform apache-spark-1.4

user2685701 15 сен '15 в 10:45 2015-09-15 10:45 · Accepted Answer · 2015-09-15 10:45

Я решил проблему, и оказалось, что проблема не связана напрямую с доступностью ресурсов. Чтобы использовать динамическое распределение, пряжа должна использовать внешнюю службу Shuffle, а не MapReduce. Чтобы лучше понять динамическое распределение, я рекомендую вам прочитать это.