Поддержка индексации в формате HIVE ORC

Мы ищем решение для создания отчетов, в котором данные хранятся на уровне данных HIVE/Hadoop, который запрашивается уровнем отчетов с использованием SSRS.

Теперь, учитывая оптимизацию производительности, имеет ли смысл подумать об индексации на уровне данных, учитывая, что мы будем использовать формат файла ORC на HIVE.

Согласно нескольким ссылкам, таким как ниже, похоже, что индексирование присуще формату файла ORC? Это тот случай или это что-то другое.

LanguageManual ORC

Я новичок в HIVE/Hadoop, поэтому буду признателен за любые указания здесь. Спасибо!

1 ответ

Индексы в файлах ORC имеют другое назначение. Из документации

Облегченные индексы, хранящиеся в файле, пропускают группы строк, которые не пропускают поиск по предикату для данной строки.

Однако индексы в том числе предназначены для оптимизации поиска по конкретным столбцам.

Целью индексирования Hive является повышение скорости поиска запросов для определенных столбцов таблицы. Без индекса запросы с предикатами типа WHERE tab1.col1 = 10 загружают всю таблицу или раздел и обрабатывают все строки. Но если для col1 существует индекс, то необходимо загрузить и обработать только часть файла.

Я не уверен, что это улучшит соответствие вашей модели отчетности, вероятно, не поможет много общих агрегаций

Я надеюсь, что это помогает

Другие вопросы по тегам