Описание тега data-warehouse
Хранилище данных - это предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый набор данных, используемый для запросов, анализа и отчетности в целях поддержки принятия решений.
Витрина данных - это уровень доступа к хранилищу данных. Он обслуживает определенный отдел, например, маркетинг, HR и т. Д. Витрины данных, посвященные бизнес-функциям и спецификациям подразделений, делают информацию более конкретной и более быстрой.
Некоторые различия между витриной данных и хранилищем данных:
- Хранилища данных имеют несколько предметных областей с более подробной информацией. Они объединяют все источники данных. Размерное моделирование не требуется, но оно поддерживает размерные модели.
- Витрины данных обычно содержат одну предметную область с не такой подробной информацией - часто обобщенной. Сконцентрируйтесь на интеграции информации из одной предметной области или исходной системы. Построен на размерных моделях, таких как звездная схема.
Есть много доступных продуктов, которые обеспечивают возможность хранения данных, например, MSAccess, Essbase (Hyperion, теперь Oracle), Cognos, Business Objects, MicroStrategy, ...
Основы хранилища данных:
- Размерное моделирование - состоит из идентификации измерений или фактов, которые заданы контекстом по их связанным измерениям. Степень детализации таблицы фактов описывает уровень детализации, на котором фиксируются факты.
Основные этапы реляционного моделирования:
- Выберите бизнес-процесс
- Объявить зерно
- Определите размеры
- Определите факт
Онлайн-аналитическая обработка (OLAP) и ее типы ( ROLAP, MOLAP, HOLAP, ...): описывает основы конструкции БД и плюсы / минусы каждого способа. - В среде хранилища данных используется множество различных шаблонов проектирования. Некоторые общие подходы включают: нормализованный (5NF); DataVault; Якорное моделирование; Размерные ( 5, 6); другие временные (например, 6NF). - SQL: описывает, как можно запрашивать хранилище данных. Ниже приводится список основных ключевых слов, которые должен знать каждый разработчик хранилища данных: - JOIN - GROUPBY
На высоком уровне хранилище данных можно разделить на:
- Легкодоступные инструменты (IBM Cognos, Microsoft Business Intelligence, Oracle Business Intelligence Enterprise, dition(OBIEE), Business Objects Enterprise XI, Jaspersoft, Talend Open studio, Pentaho, Qlikview и т. Д.) И способы их использования. Используется для наборов данных малого и среднего размера. Обычно для этого требуется [по крайней мере] знание инструментов:
- модель данных и
- пользовательский интерфейс
- Создание собственного хранилища данных для конкретных случаев использования. Используется при работе с действительно огромными наборами данных (например, данными, собранными Google, Yahoo, Facebook или данными, полученными через посредников / данными управления производительностью из большой телекоммуникационной сети. Обычно для этого требуется [по крайней мере] знание:
- концепции масштабируемости, высокой доступности и кластеризации.
- дизайн хранилища данных (схемы, запросы, модель данных, ...).
- доступные базы данных (Oracle, Clustra, Greenplum, MySQL, DB2, ...)
- проблемная область (неявная).
- соответствующие технологии GUI/UI (SWING, JSP, ...) и бизнес-логики (J2EE, C++, ...)