Сравнение решений BigData.
Я изучал BigData последние пару месяцев и начал делать мой FYP, который должен анализировать BigData
с помощью MapReduce
а также HDInsight
в Windows Azure
,
Я только пришел к этой конкретной путанице, где, какую платформу лучше сделать BigData
аналитика с точки зрения стоимости, производительности, стабильности и т. д., таких как Amazon
, Oracle
, IBM
и т.д. Этот вопрос может быть слишком широким, но я просто хотел получить общее представление о том, как их можно дифференцировать по сравнению с Azure HDInsight
,
Быть коротким, HDInsight vs Other BigData Solutions
за BigData
аналитика. Любая помощь будет оценена.
4 ответа
Насколько мне известно, у каждого поставщика облачных услуг есть свои плюсы и минусы. У меня есть хорошие знания о Google Cloud. Итак, я попытался сравнить с Google Cloud. Ниже приведены две ссылки, которые обеспечивают сопоставление продуктов с облаком Google.
https://cloud.google.com/free/docs/map-azure-google-cloud-platform https://cloud.google.com/free/docs/map-aws-google-cloud-platform
Например, Azure HDInsight сопоставляется с Google Cloud Dataproc и Google Cloud Dataflow. Здесь, используя Dataproc, мы можем запускать задания Hadoop Mapreduce. Поток данных мы можем использовать как для пакетной, так и для потоковой обработки данных.
В AWS Azure HDInsight сопоставляется с Amazon Elastic MapReduce (EMR).
У каждого поставщика услуг свой механизм ценообразования, основанный на типе процессора, количестве ядер и опциях хранения. В облаке Google у нас есть опция для вытесняемых экземпляров, которая будет стоить очень дешево, но мы можем использовать их только на короткий срок. (Макс 24 часа).
Вы можете сравнить цены ниже ссылки:
https://cloud.google.com/dataproc/pricing
https://cloud.google.com/dataflow/pricing
https://azure.microsoft.com/en-us/pricing/details/hdinsight/
https://aws.amazon.com/emr/pricing/
На рынке есть инструмент для сравнения различных облачных сервисов: https://github.com/GoogleCloudPlatform/PerfKitBenchmarker
Одна важная деталь заключается в том, что речь идет не только о платформе. Я согласен, что важно понимать ваши варианты, но смиренно предлагаю вам принять во внимание ваши (и вашу команду) навыки.
Одна платформа может быть лучше другой, но если вы начинаете с нуля, вы можете потерпеть неудачу в достижении ваших целей с точки зрения сроков, бюджета или даже полностью потерпеть неудачу.
Объединение операционных и аналитических технологий - использование Hadoop
Новые технологии, такие как NoSQL, базы данных MPP и Hadoophave, появились для решения проблем больших данных и для предоставления бизнесу новых типов продуктов и услуг.
Одним из наиболее распространенных способов использования компаниями обеих систем является интеграция базы данных NoSQL, такой как MongoDB, с Hadoop. Соединение легко устанавливается с помощью существующих API-интерфейсов и позволяет аналитикам и ученым выполнять сложные ретроспективные запросы для анализа и анализа больших данных, сохраняя при этом эффективность и простоту использования базы данных NoSQL.
NoSQL, базы данных MPP и Hadoop дополняют друг друга: системы NoSQL должны использоваться для сбора больших данных и обеспечения оперативного интеллекта пользователей, а базы данных MPP и Hadoop должны использоваться для предоставления аналитической информации аналитикам и ученым. Вместе NoSQL, базы данных MPP и Hadoop позволяют предприятиям использовать большие данные.