Где создать таблицу промежуточных данных в среде BigData?

Question

Где создать таблицу промежуточных данных в среде BigData?

В настоящее время у меня Hadoop-2, PIG, HIVE и HBASE. У меня есть входные данные. Я загрузил эти данные в HDFS. Я хочу создать промежуточные данные в этой среде.

Мой запрос -

В каком компоненте BigData я должен создать промежуточную таблицу (Pig/HIVE/HBASE); это будет иметь данные, поступающие в зависимости от условия? Позже мы можем захотеть запустить MapReduce Jobs со сложной логикой.

Пожалуйста помогите

0

hive hbase apache-pig hadoop2 staging-table

Источник

user3343543 15 июл '15 в 07:30

2 ответа

Решение

Где угодно. Свинья не вариант, так как у нее нет метастаза. Улей, если вы хотите SQL, как запросы. HBase на основе ваших шаблонов доступа.

Когда вы запускаете запрос Hive поверх данных, он преобразуется в MR.

Когда вы создаете его в Hive, используйте Hive Queries, а не MR. Если вы используете MR, то используйте Pig. Вам не поможет создание таблицы Hive поверх данных.

0

Источник

user3276920 15 июл '15 в 15:31

Другие вопросы по тегам hive hbase apache-pig hadoop2 staging-table

user1129041 16 июл '15 в 10:43 2015-07-16 10:43 · Accepted Answer · 2015-07-16 10:43

Hive: Если у вас есть рабочая нагрузка OLAP и вам не нужно читать / писать в реальном времени.

HBase: Если у вас OLTP вид рабочей нагрузки. Вам нужно делать в реальном времени / потоковое чтение / запись. Некоторую пакетную обработку или обработку OLAP можно выполнить с помощью MapReduce. SQL-подобные запросы возможны при использовании Apache Phoenix.

Вы можете запустить задание MapReduce на HIVE и HBase одновременно.