Как связаны между собой OLAP, OLTP, хранилища данных, аналитика, анализ и анализ данных?

Я пытаюсь понять, что такое OLAP, OLTP, интеллектуальный анализ данных, аналитика и т. Д., И мне кажется, что мое понимание некоторых из этих концепций все еще немного расплывчато. Информация об этих предметах, как правило, очень сложно объясняется в Интернете.


Мне кажется, что такой вопрос, скорее всего, будет закрыт, поскольку он очень широкий, поэтому я постараюсь сузить его до двух вопросов:

Вопрос 1:

Проведя исследование, я понимаю следующее об этих понятиях, это правильно?

  • Анализ разлагает что-то сложное, чтобы лучше понять внутреннюю работу.
  • Аналитика - это интеллектуальный анализ информации, которая требует много математики и статистики.
  • Существует много типов баз данных, но они бывают либо OLTP (транзакционные), либо OLAP (аналитические).
  • В базах данных OLTP используются диаграммы ER, поэтому их проще обновлять, поскольку они находятся в нормализованной форме.
  • В отличие от этого, в OLAP используется денормализованная схема типа "звезда", поэтому ее проще запрашивать.
  • OLAP используется для прогнозирующего анализа, а OLTP обычно используется в более практических ситуациях, поскольку нет избыточности.
  • Хранилища данных - это тип базы данных OLAP, который обычно состоит из нескольких других баз данных.
  • Интеллектуальный анализ данных - это инструмент, используемый в аналитике, где вы используете компьютерное программное обеспечение, чтобы выяснить отношения между данными, чтобы вы могли предсказать вещи (например, поведение клиента).

Вопрос 2:

Меня особенно смущает разница между аналитикой и анализом. Они говорят, что аналитика - это многомерный анализ, но что это должно означать?

2 ответа

Решение

Я постараюсь объяснить вам с вершины пирамиды:

Business Intelligence (то, что вы не упомянули) - это термин в ИТ, который обозначает сложную систему и предоставляет полезную информацию о компании из данных.

Итак, у BI систем есть цель: чистая, точная и значимая информация. Очистить означает, что нет технических проблем (недостающие ключи, неполные данные и т. Д.). Точный означает точный - системы BI также используются в качестве средства проверки ошибок производственной базы данных (логические ошибки - т.е. счет-фактура слишком высокий или используется неактивный партнер и т. Д.). Это было достигнуто с правилами. Смысл сложно объяснить, но на простом английском языке это все ваши данные (даже таблица Excel с последнего совещания), так, как вы хотите.

Итак, система BI имеет бэкэнд: это хранилище данных. DWH - это не что иное, как база данных (экземпляр, а не программное обеспечение). Он может храниться в СУБД, аналитической базе данных (столбчатые или хранилища документов) или в базах данных NoSQL.

Хранилище данных - это термин, используемый обычно для всей базы данных, который я объяснил выше. Может быть количество витрин данных (если используется модель Кимбалла) - чаще, или реляционная система в 3-й нормализованной форме (модель Инмона), называемая хранилищем данных предприятия.

Витрины данных - это таблицы внутри DWH, которые связаны (схема "звезда", схема "снежинка"). Таблица фактов (бизнес-процесс в денормализованной форме) и таблицы измерений.

Каждый киоск данных представляет один бизнес-процесс. Пример: DWH имеет 3 витрины данных. Один из них - розничные продажи, второй - экспорт, а третий - импорт. В розничной торговле вы можете увидеть общий объем продаж, количество проданных товаров, импортную цену, прибыль (показатели) по SKU, дату, магазин, город и т. Д. (Размеры).

Загрузка данных в DWH называется ETL(извлечение, преобразование, загрузка).

  1. Извлечение данных из нескольких источников (ERP db, CRM db, файлы Excel, веб-сервис...)

  2. Преобразование данных (очистка данных, подключение данных из разных источников, ключи соответствия, данные о шахтах)

  3. Загрузить данные (Загрузить преобразованные данные в определенных витринах данных)

редактировать из-за комментария: процесс ETL обычно создается с помощью инструмента ETL или вручную с использованием некоторого языка программирования (python, C# ect) и API.

Процесс ETL - это группа SQL, процедур, сценариев и правил, связанных и разделенных на 3 части (см. Выше), управляемых метаданными. Это либо по расписанию (каждую ночь, каждые несколько часов) или в прямом эфире (изменение сбора данных, триггеры, транзакции).

OLTP и OLAP являются типами обработки данных. OLTP используется в целях транзакции, между базой данных и программным обеспечением (обычно только один способ ввода / вывода данных). OLAP предназначен для аналитических целей, а это означает, что имеется несколько источников, исторические данные, высокая производительность выборочных запросов, добытые данные.

редактировать из-за комментариев: обработка данных - это способ хранения данных и доступа к ним из базы данных. Итак, исходя из ваших потребностей, база данных настраивается по-другому.

Изображение с http://datawarehouse4u.info/:

Интеллектуальный анализ данных - это вычислительный процесс обнаружения шаблонов в больших наборах данных. Полученные данные могут дать вам более глубокое представление о бизнес-процессах или даже прогнозах.

Анализ - это глагол, который в мире BI означает простоту получения запрашиваемой информации из данных. Многомерный анализ на самом деле говорит о том, как система разбивает ваши данные (с измерениями внутри куба). Википедия сказала, что анализ данных - это процесс проверки данных с целью обнаружения полезной информации.

Аналитика - это существительное, и оно представляет собой результат процесса анализа.

Не суетись из-за этих двух слов.

Я могу рассказать вам о Data Mining, так как у меня был проект по Data Mining. Интеллектуальный анализ данных - это не инструмент, метод анализа данных и различные инструменты, используемые для интеллектуального анализа данных, - это WEKA,RAPID MINER и т. Д. Интеллектуальный анализ данных основан на многих алгоритмах, встроенных в такие инструменты, как Weka,Rapid miner. Алгоритмы, такие как алгоритм кластеризации, алгоритм объединения и т. Д. Простой пример, который я могу привести в области интеллектуального анализа данных. Преподаватель преподает научный предмет в классе, используя различные методы обучения, такие как использование классной доски, презентация, практические занятия. Поэтому сейчас наша цель - найти, какой метод подходит для студентов. Затем мы проводим опрос и принимаем мнения студентов. 40 ученикам нравится классная доска,30 - презентация и 20 - практический метод. Таким образом, с помощью этих данных мы можем составить правила, например, предмет науки должен преподаваться методом классной доски. Чтобы узнать разные алгоритмы вы можете использовать Google:D.

Другие вопросы по тегам