Преобразование на большие данные или склад

Я программист, новичок в мире больших данных и пытаюсь понять, как все компоненты сочетаются друг с другом.

Если мы внедряем решение для больших данных и хранилища, и преобразования должны быть выполнены на обеих платформах, чтобы сохранить хранилище легким, как мы разделяем виды преобразований, выполняемые на каждой платформе. В идеале я бы предпочел все преобразования на платформе больших данных, но я понимаю, что хранилище данных в некоторых аспектах является более мощным, чем большие данные, и быстрее в плане разработки. Какой лучший способ разработать решение для обеих платформ?

Я думал о том, что все, что касается таблиц / источников, должно быть сделано на платформе больших данных. Будет ли приведенный ниже список хорошим началом в качестве лучшей практики для разделения проблем?

Преобразования на платформе больших данных:

  1. очищающий
  2. дедупликации
  3. Редакция формата
  4. Ключевые реструктуризация
  5. Проверка данных
  6. картографирование
  7. Поворотная

Преобразования на складской платформе: только из одного источника

  1. отвлечение
  2. фильтрация
  3. присоединение
  4. расщепляющий
  5. Де-Нормализация

Какая платформа лучше всего подходит для измерений и метрик?

Я понимаю, что не будет единого решения, но хотелось бы узнать, каковы лучшие практики и как люди управляют в разных организациях? Если мое понимание неверно, не могли бы вы указать мне правильное направление?

0 ответов

Другие вопросы по тегам