Описание тега apache-hive
Apache Hive поддерживает анализ больших наборов данных, хранящихся в HDFS Hadoop и совместимых файловых системах, таких как файловая система Amazon S3. Он предоставляет SQL-подобный язык, называемый HiveQL, со схемой при чтении и прозрачным преобразованием запросов в задания map/reduce, Apache Tez[7] и Spark. Все три механизма выполнения могут работать в Hadoop YARN. Для ускорения запросов он предоставляет индексы, включая индексы растровых изображений.
Немного возможностей:-
1.Индексирование для обеспечения ускорения, тип индекса, включая сжатие, и индекс Bitmap с версии 0.10, планируется больше типов индекса. 2. Различные типы хранения, такие как обычный текст, RCFile, HBase, ORC и другие. 3. Хранение метаданных в СУБД, что значительно сокращает время выполнения семантических проверок во время выполнения запроса. 4. Работа со сжатыми данными, хранящимися в экосистеме Hadoop, с использованием алгоритмов, включая DEFLATE, BWT, snappy и т. Д. 5. Встроенные пользовательские функции (UDF) для управления датами, строками и другими инструментами интеллектуального анализа данных. Hive поддерживает расширение набора UDF для обработки сценариев использования, не поддерживаемых встроенными функциями. 6.SQL-подобные запросы (HiveQL), которые неявно преобразуются в задания MapReduce, Tez или Spark.