Является ли схема "снежинка" лучше, чем схема "звезда" для интеллектуального анализа данных?

Я знаю основное различие между схемой "звезда" и схемой "снежинка": схема "снежинка" разбивает таблицы измерений на несколько таблиц, чтобы их нормализовать, схема "звезда" имеет только один "уровень" таблиц измерений. Но статья в Википедии для схемы Snowflake гласит:

"Некоторые пользователи могут захотеть отправлять запросы к базе данных, которые, используя обычные инструменты многомерной отчетности, не могут быть выражены в простой схеме типа" звезда ". Это особенно часто встречается при извлечении данных из баз данных клиентов, где общим требованием является поиск общих факторов между клиентами который покупал продукты, отвечающие сложным критериям. Как правило, для создания такого запроса требовались бы некоторые "снежинки", особенно если бы при первом проектировании хранилища данных не предполагалось предоставление этих форм запросов ".

Когда было бы невозможно написать запрос в схеме "звезда", который мог бы быть записан в схеме "снежинка" для тех же базовых данных? Кажется, что схема "звезда" всегда допускает одинаковые запросы.

2 ответа

Решение

Для интеллектуального анализа данных вам почти всегда приходится подготавливать данные - в основном, как один "плоский стол".

Это может быть запрос, подготовленное представление или экспорт CSV - в зависимости от инструмента и ваших предпочтений.

Теперь, чтобы правильно понять эту статью, вероятно, придется курить-пить то же, что и автор, когда он / она пишет.

Как вы упоминаете, подготовка плоской таблицы для интеллектуального анализа данных, начиная с реляционной базы данных, не является простой задачей, и схема "снежинка" или "звезда" работает только до определенной точки.

Тем не менее, существует программное обеспечение под названием Dataconda, которое автоматически создает плоский стол из БД.

По сути, вы выбираете целевую таблицу в реляционной базе данных, и dataconda "расширяет" ее, добавляя к ней тысячи новых атрибутов; эти атрибуты получены путем выполнения сложных запросов, включающих несколько таблиц.

Другие вопросы по тегам