Hadoop на гибридном облаке

Question

Hadoop на гибридном облаке

Что означает запуск Hadoop как в локальной сети, так и в облаке? Означает ли это, что узлы в одном и том же кластере hadoop предоставляются как в локальном, так и в публичном облаке?

Какие у меня есть варианты, если у меня есть данные на месте, но вычисления находятся в общедоступном облаке? Это может быть против фундаментального принципа hadoop, где важна локальность данных.

Какие поставщики гибридных облаков предлагают платформы для больших данных?

0

hadoop cloud bigdata hybrid-cloud

Источник

user1605937 16 дек '16 в 10:36

0 ответов

Другие вопросы по тегам hadoop cloud bigdata hybrid-cloud

user2024177 19 июл '19 в 23:25 2019-07-19 23:25 · Answer 1 · 2019-07-19 23:25

Вы можете взглянуть на Alluxio. По сути, это уровень данных, совместимый с Hadoop. С Alluxio вы можете оставить свои локальные данные HDFS как есть (не нужно копировать данные), но подключить их к Alluxio (сделать их видимыми). Затем вы можете запустить Spark, presto или любую аналитическую рабочую нагрузку на Alluxio в любом облаке (EC2, GCP или даже в другом центре обработки данных, где у вас больше вычислительных ресурсов). Alluxio извлекает данные в вычислительную среду, чтобы восстановить локальность данных, которая полностью теряется при вычислении и хранении. дезагрегированы. И только те данные, которые необходимы. Это может очень хорошо работать для тяжелых рабочих нагрузок чтения, когда одни и те же данные читаются много раз. Вот ссылка, которая объясняет немного больше: https://www.alluxio.io/use-cases/hybrid-cloud-analytics/