Планировщик емкости в Amazon Elastic MapReduce

Question

Планировщик емкости в Amazon Elastic MapReduce

Я совершенно новичок в Amazon Elastic MapReduce. Мне нужно использовать свой собственный планировщик, который реализован на основе планировщика емкости Hadoop, для планирования моих работ в Amazon Elastic MapReduce.

В соответствии с моим текущим пониманием, чтобы достичь этого, я могу определить только один этап в рабочем процессе и передать свой пользовательский файл JAR через соединение SSH на главный узел. Тем не менее, я не могу найти, как я могу редактировать файлы конфигурации xml, например, Capacity-Scheduler.xml в главном узле. Кто-нибудь знает, как это сделать?

Более того, если я хочу добавить к нему свойство динамического определения размера, могу ли я динамически настраивать количество узлов задачи в кластере, когда задание в данный момент выполняется? Или на каждом этапе размер кластера должен оставаться неизменным? Огромное спасибо.

0

hadoop scheduler amazon-emr dynamic-sizing

Источник

user3982247 28 авг '14 в 13:49

1 ответ

Другие вопросы по тегам hadoop scheduler amazon-emr dynamic-sizing

user1452132 28 авг '14 в 15:33 2014-08-28 15:33 · Answer 1 · 2014-08-28 15:33

Вы должны использовать действие начальной загрузки, чтобы изменить конфигурацию Hadoop.

На следующий документ AWS можно ссылаться для действия начальной загрузки Hadoop.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html

Эта статья в блоге, которую я добавил в закладки, также содержит некоторую информацию. http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/

Для динамического изменения размера кластера можно использовать AWS SDK.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html

Используя следующий интерфейс, вы можете изменить количество экземпляров группы экземпляров. http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html