Как связаны между собой OLAP, OLTP, хранилища данных, аналитика, анализ и анализ данных?
Я пытаюсь понять, что такое OLAP, OLTP, интеллектуальный анализ данных, аналитика и т. Д., И мне кажется, что мое понимание некоторых из этих концепций все еще немного расплывчато. Информация об этих предметах, как правило, очень сложно объясняется в Интернете.
Мне кажется, что такой вопрос, скорее всего, будет закрыт, поскольку он очень широкий, поэтому я постараюсь сузить его до двух вопросов:
Вопрос 1:
Проведя исследование, я понимаю следующее об этих понятиях, это правильно?
- Анализ разлагает что-то сложное, чтобы лучше понять внутреннюю работу.
- Аналитика - это интеллектуальный анализ информации, которая требует много математики и статистики.
- Существует много типов баз данных, но они бывают либо OLTP (транзакционные), либо OLAP (аналитические).
- В базах данных OLTP используются диаграммы ER, поэтому их проще обновлять, поскольку они находятся в нормализованной форме.
- В отличие от этого, в OLAP используется денормализованная схема типа "звезда", поэтому ее проще запрашивать.
- OLAP используется для прогнозирующего анализа, а OLTP обычно используется в более практических ситуациях, поскольку нет избыточности.
- Хранилища данных - это тип базы данных OLAP, который обычно состоит из нескольких других баз данных.
- Интеллектуальный анализ данных - это инструмент, используемый в аналитике, где вы используете компьютерное программное обеспечение, чтобы выяснить отношения между данными, чтобы вы могли предсказать вещи (например, поведение клиента).
Вопрос 2:
Меня особенно смущает разница между аналитикой и анализом. Они говорят, что аналитика - это многомерный анализ, но что это должно означать?
2 ответа
Я постараюсь объяснить вам с вершины пирамиды:
Business Intelligence (то, что вы не упомянули) - это термин в ИТ, который обозначает сложную систему и предоставляет полезную информацию о компании из данных.
Итак, у BI систем есть цель: чистая, точная и значимая информация. Очистить означает, что нет технических проблем (недостающие ключи, неполные данные и т. Д.). Точный означает точный - системы BI также используются в качестве средства проверки ошибок производственной базы данных (логические ошибки - т.е. счет-фактура слишком высокий или используется неактивный партнер и т. Д.). Это было достигнуто с правилами. Смысл сложно объяснить, но на простом английском языке это все ваши данные (даже таблица Excel с последнего совещания), так, как вы хотите.
Итак, система BI имеет бэкэнд: это хранилище данных. DWH - это не что иное, как база данных (экземпляр, а не программное обеспечение). Он может храниться в СУБД, аналитической базе данных (столбчатые или хранилища документов) или в базах данных NoSQL.
Хранилище данных - это термин, используемый обычно для всей базы данных, который я объяснил выше. Может быть количество витрин данных (если используется модель Кимбалла) - чаще, или реляционная система в 3-й нормализованной форме (модель Инмона), называемая хранилищем данных предприятия.
Витрины данных - это таблицы внутри DWH, которые связаны (схема "звезда", схема "снежинка"). Таблица фактов (бизнес-процесс в денормализованной форме) и таблицы измерений.
Каждый киоск данных представляет один бизнес-процесс. Пример: DWH имеет 3 витрины данных. Один из них - розничные продажи, второй - экспорт, а третий - импорт. В розничной торговле вы можете увидеть общий объем продаж, количество проданных товаров, импортную цену, прибыль (показатели) по SKU, дату, магазин, город и т. Д. (Размеры).
Загрузка данных в DWH называется ETL(извлечение, преобразование, загрузка).
Извлечение данных из нескольких источников (ERP db, CRM db, файлы Excel, веб-сервис...)
Преобразование данных (очистка данных, подключение данных из разных источников, ключи соответствия, данные о шахтах)
Загрузить данные (Загрузить преобразованные данные в определенных витринах данных)
редактировать из-за комментария: процесс ETL обычно создается с помощью инструмента ETL или вручную с использованием некоторого языка программирования (python, C# ect) и API.
Процесс ETL - это группа SQL, процедур, сценариев и правил, связанных и разделенных на 3 части (см. Выше), управляемых метаданными. Это либо по расписанию (каждую ночь, каждые несколько часов) или в прямом эфире (изменение сбора данных, триггеры, транзакции).
OLTP и OLAP являются типами обработки данных. OLTP используется в целях транзакции, между базой данных и программным обеспечением (обычно только один способ ввода / вывода данных). OLAP предназначен для аналитических целей, а это означает, что имеется несколько источников, исторические данные, высокая производительность выборочных запросов, добытые данные.
редактировать из-за комментариев: обработка данных - это способ хранения данных и доступа к ним из базы данных. Итак, исходя из ваших потребностей, база данных настраивается по-другому.
Изображение с http://datawarehouse4u.info/:
Интеллектуальный анализ данных - это вычислительный процесс обнаружения шаблонов в больших наборах данных. Полученные данные могут дать вам более глубокое представление о бизнес-процессах или даже прогнозах.
Анализ - это глагол, который в мире BI означает простоту получения запрашиваемой информации из данных. Многомерный анализ на самом деле говорит о том, как система разбивает ваши данные (с измерениями внутри куба). Википедия сказала, что анализ данных - это процесс проверки данных с целью обнаружения полезной информации.
Аналитика - это существительное, и оно представляет собой результат процесса анализа.
Не суетись из-за этих двух слов.
Я могу рассказать вам о Data Mining, так как у меня был проект по Data Mining. Интеллектуальный анализ данных - это не инструмент, метод анализа данных и различные инструменты, используемые для интеллектуального анализа данных, - это WEKA,RAPID MINER и т. Д. Интеллектуальный анализ данных основан на многих алгоритмах, встроенных в такие инструменты, как Weka,Rapid miner. Алгоритмы, такие как алгоритм кластеризации, алгоритм объединения и т. Д. Простой пример, который я могу привести в области интеллектуального анализа данных. Преподаватель преподает научный предмет в классе, используя различные методы обучения, такие как использование классной доски, презентация, практические занятия. Поэтому сейчас наша цель - найти, какой метод подходит для студентов. Затем мы проводим опрос и принимаем мнения студентов. 40 ученикам нравится классная доска,30 - презентация и 20 - практический метод. Таким образом, с помощью этих данных мы можем составить правила, например, предмет науки должен преподаваться методом классной доски. Чтобы узнать разные алгоритмы вы можете использовать Google:D.