Планировщик емкости в Amazon Elastic MapReduce
Я совершенно новичок в Amazon Elastic MapReduce. Мне нужно использовать свой собственный планировщик, который реализован на основе планировщика емкости Hadoop, для планирования моих работ в Amazon Elastic MapReduce.
В соответствии с моим текущим пониманием, чтобы достичь этого, я могу определить только один этап в рабочем процессе и передать свой пользовательский файл JAR через соединение SSH на главный узел. Тем не менее, я не могу найти, как я могу редактировать файлы конфигурации xml, например, Capacity-Scheduler.xml в главном узле. Кто-нибудь знает, как это сделать?
Более того, если я хочу добавить к нему свойство динамического определения размера, могу ли я динамически настраивать количество узлов задачи в кластере, когда задание в данный момент выполняется? Или на каждом этапе размер кластера должен оставаться неизменным? Огромное спасибо.
1 ответ
Вы должны использовать действие начальной загрузки, чтобы изменить конфигурацию Hadoop.
На следующий документ AWS можно ссылаться для действия начальной загрузки Hadoop.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html
Эта статья в блоге, которую я добавил в закладки, также содержит некоторую информацию. http://sujee.net/tech/articles/hadoop/amazon-emr-beyond-basics/
Для динамического изменения размера кластера можно использовать AWS SDK.
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/calling-emr-with-java-sdk.html
Используя следующий интерфейс, вы можете изменить количество экземпляров группы экземпляров. http://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/elasticmapreduce/AmazonElasticMapReduce.html