Поддержка индексации в формате HIVE ORC

Question

Поддержка индексации в формате HIVE ORC

Мы ищем решение для создания отчетов, в котором данные хранятся на уровне данных HIVE/Hadoop, который запрашивается уровнем отчетов с использованием SSRS.

Теперь, учитывая оптимизацию производительности, имеет ли смысл подумать об индексации на уровне данных, учитывая, что мы будем использовать формат файла ORC на HIVE.

Согласно нескольким ссылкам, таким как ниже, похоже, что индексирование присуще формату файла ORC? Это тот случай или это что-то другое.

LanguageManual ORC

Я новичок в HIVE/Hadoop, поэтому буду признателен за любые указания здесь. Спасибо!

0

hadoop indexing hive ssrs-2012

Источник

user120800 13 июн '17 в 05:22

1 ответ

Другие вопросы по тегам hadoop indexing hive ssrs-2012

user3829426 13 июн '17 в 06:33 2017-06-13 06:33 · Answer 1 · 2017-06-13 06:33

Индексы в файлах ORC имеют другое назначение. Из документации

Облегченные индексы, хранящиеся в файле, пропускают группы строк, которые не пропускают поиск по предикату для данной строки.

Однако индексы в том числе предназначены для оптимизации поиска по конкретным столбцам.

Целью индексирования Hive является повышение скорости поиска запросов для определенных столбцов таблицы. Без индекса запросы с предикатами типа WHERE tab1.col1 = 10 загружают всю таблицу или раздел и обрабатывают все строки. Но если для col1 существует индекс, то необходимо загрузить и обработать только часть файла.

Я не уверен, что это улучшит соответствие вашей модели отчетности, вероятно, не поможет много общих агрегаций

Я надеюсь, что это помогает