Amazon EC2 против Amazon EMR

Я выполнил задачу в Улей. В настоящее время он работает нормально на моем кластере с одним узлом. Сейчас я планирую развернуть его на AWS.

Я ничего не знаю о AWS. Если я планирую развернуть его, что я должен выбрать Amazon EC2 или Amazon EMR?

Я хочу улучшить выполнение своей задачи. Какой из них лучше и надежнее для меня? Как подойти к ним? Я слышал, что мы также можем зарегистрировать нашу настройку виртуальной машины, как она есть на AWS. Является ли это возможным?

Пожалуйста, предложите мне как можно скорее.

Большое спасибо.

3 ответа

Решение

EMR - это набор экземпляров EC2 с установленными и настроенными на них Hadoop (и, возможно, Hive и / или Pig). Если вы используете кластер для выполнения заданий Hadoop/Hive/Pig, EMR - это то, что вам нужно. Экземпляр EMR стоит немного больше по сравнению с экземпляром EC2. Быстрая проверка цен на Amazon сегодня показывает, что небольшие экземпляры EC2 стоят 0,08 долл. США в час, а небольшой экземпляр EMR стоит дополнительно 0,015 долл. США / час. На мой взгляд, это стоит того, чтобы заплатить дополнительные деньги, чтобы избавить себя от необходимости устанавливать и настраивать Hadoop (вместе с Hive и Pig), создавать и поддерживать AMI и его использование. Более того, в версии Hadoop и Hive EMR есть некоторые патчи, которые недоступны (по крайней мере, пока) в Apache Hive. Если вы используете EC2, вы, вероятно, будете использовать Apache Hadoop и Hive (или, может быть, дистрибутивы Cloudera) и не будете иметь доступа к этим патчам (например, встроенная поддержка S3 или такие команды, как ALTER TABLE my_table RECOVER PARTITIONS

Рекомендации:

Я бы посоветовал вам НЕ пытаться развернуть свой собственный кластер Hadoop, если у вас нет свободных 2-3 месяцев и у вас есть под рукой эксперт по hadoop.

Elastic MapReduce позволит вам быстро начать работу, предоставив предварительно сконфигурированную среду hadoop. Если у вас есть только одна работа, все должно быть хорошо.

В целом, исторически EMR довольно сильно отставал от последних версий компонентов Hadoop, а некоторые полностью отсутствовали. Это основная причина использования другого дистрибутива. Например, если вы хотели HBase, его не было в EMR, но это не так. Сегодня Spark отсутствует в EMR. EMR будет вообще отставать.

Тем не менее, если вы не используете новейшие и лучшие функции, используйте EMR.

Другие вопросы по тегам