Обеспечение искрового глубокого обучения внешней банки для зажигания с питоном на amazon-EMR

Я пытался заставить библиотеку глубокого обучения работать на моем кластере EMR, чтобы иметь возможность читать изображения параллельно с Python 2.7. Я искал это в течение достаточно долгого времени, и мне не удалось найти решение. Я попытался установить различные параметры конфигурации в conf для sparksession, и я получаю следующую ошибку при попытке создать объект SparkSession

ERROR SparkContext:91 - Error initializing SparkContext.
org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.
   at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:89)
   at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:63)
   at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:164)
   at org.apache.spark.SparkContext.<init>(SparkContext.scala:500)
   at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:58)
   at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
   at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
   at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
   at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
   at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:247)
   at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
   at py4j.Gateway.invoke(Gateway.java:238)
   at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:80)
   at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:69)
   at py4j.GatewayConnection.run(GatewayConnection.java:214)
   at java.lang.Thread.run(Thread.java:748)

Выше был результат при использовании ноутбука Jupyter. Я попытался отправить файл py с помощью spark submit и добавить jar, который мне нужно использовать в качестве значения для --jars, --driver-class-path и для --conf spark.executor.extraClassPath, как обсуждалось по этой ссылке. Здесь это код, который я отправляю вместе с полученной ошибкой импорта:

bin/spark-submit --jars /home/hadoop/spark-deep-learning-0.2.0-spark2.1-s_2.11.jar /
--driver-class-path /home/hadoop/spark-deep-learning-0.2.0-spark2.1-s_2.11.jar /
--conf spark.executor.extraClassPath=/home/hadoop/spark-deep-learning-0.2.0-spark2.1-s_2.11.jar /
/home/hadoop/RunningCode6.py 

Traceback (most recent call last):
  File "/home/hadoop/RunningCode6.py", line 74, in <module>
  from sparkdl import KerasImageFileTransformer
ImportError: No module named sparkdl

Библиотека работает нормально в автономном режиме, но я продолжаю получать одну из указанных выше ошибок при использовании режима кластера.

Я действительно надеюсь, что кто-то может помочь мне решить эту проблему, потому что я смотрю на это уже несколько недель, и мне нужно, чтобы это работало

Спасибо!

0 ответов

Другие вопросы по тегам