Где создать таблицу промежуточных данных в среде BigData?

В настоящее время у меня Hadoop-2, PIG, HIVE и HBASE. У меня есть входные данные. Я загрузил эти данные в HDFS. Я хочу создать промежуточные данные в этой среде.

Мой запрос -

В каком компоненте BigData я должен создать промежуточную таблицу (Pig/HIVE/HBASE); это будет иметь данные, поступающие в зависимости от условия? Позже мы можем захотеть запустить MapReduce Jobs со сложной логикой.

Пожалуйста помогите

2 ответа

Решение

Hive: Если у вас есть рабочая нагрузка OLAP и вам не нужно читать / писать в реальном времени.

HBase: Если у вас OLTP вид рабочей нагрузки. Вам нужно делать в реальном времени / потоковое чтение / запись. Некоторую пакетную обработку или обработку OLAP можно выполнить с помощью MapReduce. SQL-подобные запросы возможны при использовании Apache Phoenix.

Вы можете запустить задание MapReduce на HIVE и HBase одновременно.

Где угодно. Свинья не вариант, так как у нее нет метастаза. Улей, если вы хотите SQL, как запросы. HBase на основе ваших шаблонов доступа.

Когда вы запускаете запрос Hive поверх данных, он преобразуется в MR.

Когда вы создаете его в Hive, используйте Hive Queries, а не MR. Если вы используете MR, то используйте Pig. Вам не поможет создание таблицы Hive поверх данных.

Другие вопросы по тегам