Сравнение решений BigData.

Я изучал BigData последние пару месяцев и начал делать мой FYP, который должен анализировать BigData с помощью MapReduce а также HDInsight в Windows Azure,

Я только пришел к этой конкретной путанице, где, какую платформу лучше сделать BigData аналитика с точки зрения стоимости, производительности, стабильности и т. д., таких как Amazon, Oracle, IBM и т.д. Этот вопрос может быть слишком широким, но я просто хотел получить общее представление о том, как их можно дифференцировать по сравнению с Azure HDInsight,

Быть коротким, HDInsight vs Other BigData Solutions за BigData аналитика. Любая помощь будет оценена.

4 ответа

Сравнение между различными дистрибьюторами hadoop Дистрибьюторы 1] 1

Вы можете найти ссылку на дистрибутив Microsoft в этой статье

Насколько мне известно, у каждого поставщика облачных услуг есть свои плюсы и минусы. У меня есть хорошие знания о Google Cloud. Итак, я попытался сравнить с Google Cloud. Ниже приведены две ссылки, которые обеспечивают сопоставление продуктов с облаком Google.

https://cloud.google.com/free/docs/map-azure-google-cloud-platform https://cloud.google.com/free/docs/map-aws-google-cloud-platform

Например, Azure HDInsight сопоставляется с Google Cloud Dataproc и Google Cloud Dataflow. Здесь, используя Dataproc, мы можем запускать задания Hadoop Mapreduce. Поток данных мы можем использовать как для пакетной, так и для потоковой обработки данных.

В AWS Azure HDInsight сопоставляется с Amazon Elastic MapReduce (EMR).

У каждого поставщика услуг свой механизм ценообразования, основанный на типе процессора, количестве ядер и опциях хранения. В облаке Google у нас есть опция для вытесняемых экземпляров, которая будет стоить очень дешево, но мы можем использовать их только на короткий срок. (Макс 24 часа).

Вы можете сравнить цены ниже ссылки:

https://cloud.google.com/dataproc/pricing

https://cloud.google.com/dataflow/pricing

https://azure.microsoft.com/en-us/pricing/details/hdinsight/

https://aws.amazon.com/emr/pricing/

На рынке есть инструмент для сравнения различных облачных сервисов: https://github.com/GoogleCloudPlatform/PerfKitBenchmarker

Одна важная деталь заключается в том, что речь идет не только о платформе. Я согласен, что важно понимать ваши варианты, но смиренно предлагаю вам принять во внимание ваши (и вашу команду) навыки.

Одна платформа может быть лучше другой, но если вы начинаете с нуля, вы можете потерпеть неудачу в достижении ваших целей с точки зрения сроков, бюджета или даже полностью потерпеть неудачу.

Объединение операционных и аналитических технологий - использование Hadoop

Новые технологии, такие как NoSQL, базы данных MPP и Hadoophave, появились для решения проблем больших данных и для предоставления бизнесу новых типов продуктов и услуг.

Одним из наиболее распространенных способов использования компаниями обеих систем является интеграция базы данных NoSQL, такой как MongoDB, с Hadoop. Соединение легко устанавливается с помощью существующих API-интерфейсов и позволяет аналитикам и ученым выполнять сложные ретроспективные запросы для анализа и анализа больших данных, сохраняя при этом эффективность и простоту использования базы данных NoSQL.

NoSQL, базы данных MPP и Hadoop дополняют друг друга: системы NoSQL должны использоваться для сбора больших данных и обеспечения оперативного интеллекта пользователей, а базы данных MPP и Hadoop должны использоваться для предоставления аналитической информации аналитикам и ученым. Вместе NoSQL, базы данных MPP и Hadoop позволяют предприятиям использовать большие данные.

Другие вопросы по тегам