Где создать таблицу промежуточных данных в среде BigData?
В настоящее время у меня Hadoop-2, PIG, HIVE и HBASE. У меня есть входные данные. Я загрузил эти данные в HDFS. Я хочу создать промежуточные данные в этой среде.
Мой запрос -
В каком компоненте BigData я должен создать промежуточную таблицу (Pig/HIVE/HBASE); это будет иметь данные, поступающие в зависимости от условия? Позже мы можем захотеть запустить MapReduce Jobs со сложной логикой.
Пожалуйста помогите
2 ответа
Hive:
Если у вас есть рабочая нагрузка OLAP и вам не нужно читать / писать в реальном времени.
HBase:
Если у вас OLTP вид рабочей нагрузки. Вам нужно делать в реальном времени / потоковое чтение / запись. Некоторую пакетную обработку или обработку OLAP можно выполнить с помощью MapReduce. SQL-подобные запросы возможны при использовании Apache Phoenix.
Вы можете запустить задание MapReduce на HIVE и HBase одновременно.
Где угодно. Свинья не вариант, так как у нее нет метастаза. Улей, если вы хотите SQL, как запросы. HBase на основе ваших шаблонов доступа.
Когда вы запускаете запрос Hive поверх данных, он преобразуется в MR.
Когда вы создаете его в Hive, используйте Hive Queries, а не MR. Если вы используете MR, то используйте Pig. Вам не поможет создание таблицы Hive поверх данных.