Что такое хранилище данных и может ли оно применяться к сложным данным?

Я хочу определить хранилище данных с необходимой литературной ссылкой.

Я нашел в википедии, что вики

DW являются центральными хранилищами интегрированных данных из одного или нескольких разнородных источников. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников всего предприятия.

Означает ли это, что это всегда реляционная база данных под хранилищем данных или это может быть какой-либо репозиторий?

В Архитектурной платформе для сложных хранилищ данных термин хранилище данных также используется для сложных данных, что означает видео, изображения и т. Д., Но термин хранилище данных остается неопределенным в этом документе.

1 ответ

Решение

"Хранилище данных" - это в основном концепция информационных систем, которая описывает централизованный и надежный источник (например, компания / бизнес) данных.

Из Википедии: "DW являются центральными хранилищами интегрированных данных из одного или нескольких разнородных источников. Они хранят текущие и исторические данные в одном месте, которые используются для создания аналитических отчетов для работников по всему предприятию".

Я считаю Kimball Group одним из самых авторитетных источников по этой теме, так как они разрабатывали свои рамки и методологии на протяжении более двух десятилетий, и они также применяют эти рамки для различных деловых и технических областей и обмениваются результатами и результатами. этого.

Kimball's Data Warehouse Toolkit является одним из справочников по данной теме, и он определяет хранилище данных как "копию данных транзакций, специально структурированных для запросов и анализа".

Билл Инмон также считается одним из пионеров хранилищ данных и определяет хранилище данных как "предметно-ориентированный, интегрированный, изменяющийся во времени и энергонезависимый сбор данных для поддержки процесса принятия решений руководством".

Хранилище данных не обязательно должно быть реализовано в системе реляционных баз данных, хотя очень распространено реализовывать трехмерные модели Кимбалла в RDBMS или в других системах баз данных, которые поддерживают концепции таблиц "соединения" (например, Redshift, Presto, Hive).

Недавним дополнением к архитектурам данных, которое идеально подходит для сложных типов данных, является концепция озера данных, которое обычно представляет собой хранилище данных, которое может обрабатывать практически любые типы данных (например, S3, HDFS), которые могут быть проанализированы напрямую (например, MapReduce поверх XML-файлов на S3) или обработанные в различные форматы или модели данных (например, размерная модель).

Изменить после вашего комментария:

Хранилище данных и озеро данных являются независимыми системами, которые служат различным целям, могут / должны быть взаимодополняющими, и оба являются частью более широкой архитектуры данных. Озеро данных, как концепция, может быть просто еще одним источником данных для многомерных моделей в хранилище данных (хотя технологическая реализация озер данных позволяет осуществлять прямой запрос необработанных данных).

Вы можете думать о озере данных как о "зоне посадки", где несколько систем выгружают данные в "сложном / необработанном формате", например, MP3-файлы из звонков в службу поддержки клиентов, сжатые журналы с веб-серверов. Он предназначен для исторических целей и для дальнейшей обработки в формате, который можно легко проанализировать / отчитать, например, извлечение текста из файлов MP3.

Хранилище данных также агрегирует данные из разных систем, но данные моделируются в формате, подходящем для отчетности (например, в многомерной модели), его модель отражает процессы и транзакции бизнеса / домена и обычно высоко курируется.

Представьте себе случай: если вы регистрируете посещения своего интернет-магазина с использованием журналов веб-сервера, вы можете хранить журналы в сжатом виде ("данные транзакций") в озере данных, а затем обрабатывать данные в многомерной модели (например, такой), которая будет "Копия данных транзакций, специально структурированных для запросов и анализа", поэтому бизнес-пользователи могут легко изучить их в Excel или каком-либо другом инструменте отчетности.

Другие вопросы по тегам