Hadoop на гибридном облаке
Что означает запуск Hadoop как в локальной сети, так и в облаке? Означает ли это, что узлы в одном и том же кластере hadoop предоставляются как в локальном, так и в публичном облаке?
Какие у меня есть варианты, если у меня есть данные на месте, но вычисления находятся в общедоступном облаке? Это может быть против фундаментального принципа hadoop, где важна локальность данных.
Какие поставщики гибридных облаков предлагают платформы для больших данных?
0 ответов
Вы можете взглянуть на Alluxio. По сути, это уровень данных, совместимый с Hadoop. С Alluxio вы можете оставить свои локальные данные HDFS как есть (не нужно копировать данные), но подключить их к Alluxio (сделать их видимыми). Затем вы можете запустить Spark, presto или любую аналитическую рабочую нагрузку на Alluxio в любом облаке (EC2, GCP или даже в другом центре обработки данных, где у вас больше вычислительных ресурсов). Alluxio извлекает данные в вычислительную среду, чтобы восстановить локальность данных, которая полностью теряется при вычислении и хранении. дезагрегированы. И только те данные, которые необходимы. Это может очень хорошо работать для тяжелых рабочих нагрузок чтения, когда одни и те же данные читаются много раз. Вот ссылка, которая объясняет немного больше: https://www.alluxio.io/use-cases/hybrid-cloud-analytics/