Преобразование на большие данные или склад
Я программист, новичок в мире больших данных и пытаюсь понять, как все компоненты сочетаются друг с другом.
Если мы внедряем решение для больших данных и хранилища, и преобразования должны быть выполнены на обеих платформах, чтобы сохранить хранилище легким, как мы разделяем виды преобразований, выполняемые на каждой платформе. В идеале я бы предпочел все преобразования на платформе больших данных, но я понимаю, что хранилище данных в некоторых аспектах является более мощным, чем большие данные, и быстрее в плане разработки. Какой лучший способ разработать решение для обеих платформ?
Я думал о том, что все, что касается таблиц / источников, должно быть сделано на платформе больших данных. Будет ли приведенный ниже список хорошим началом в качестве лучшей практики для разделения проблем?
Преобразования на платформе больших данных:
- очищающий
- дедупликации
- Редакция формата
- Ключевые реструктуризация
- Проверка данных
- картографирование
- Поворотная
Преобразования на складской платформе: только из одного источника
- отвлечение
- фильтрация
- присоединение
- расщепляющий
- Де-Нормализация
Какая платформа лучше всего подходит для измерений и метрик?
Я понимаю, что не будет единого решения, но хотелось бы узнать, каковы лучшие практики и как люди управляют в разных организациях? Если мое понимание неверно, не могли бы вы указать мне правильное направление?