Описание тега etl
ETL - это процесс, особенно заметный в хранилищах данных. Этот термин является отраслевым стандартом, обозначающим перемещение и преобразование данных. Он выполняет следующие функции:
Извлечение данных из однородных или разнородных источников данных
Преобразование данных - очистка, переформатирование, стандартизация, агрегирование, объединение с другими данными и применение бизнес-логики
Загрузите данные в указанные целевые таблицы, системы или плоские файлы.
Процессы ETL - это повторно используемые компоненты, которые можно запланировать для выполнения перемещения данных в определенные промежутки времени. Задания ETL, используемые как пакетные процессы, поддерживают массовую параллельную обработку данных. Как правило, они просты в обслуживании и масштабируются.
Он используется для перемещения между системами, когда задействованы большие объемы данных и сложные бизнес-правила.
Большие данные и подход ELT (да, ELT)
Традиционная интеграция данных выполнялась с использованием пакетной обработки (данные об остальных), в то время как интеграция больших данных может выполняться в режиме реального времени или с помощью пакетной обработки. Это приводит к тому, что в некоторых случаях этапы ETL переупорядочиваются, чтобы в некоторых случаях они стали ELT, поэтому данные извлекаются, загружаются в распределенные файловые системы, а затем преобразуются перед использованием.
Обычно используемые инструменты ETL:
- Службы интеграции SQL Server (SSIS)
- Informatica PowerCenter
- IBM Infosphere DataStage
- Syncsort DMX / DMX-h
- Интегратор данных Oracle
- Oracle Warehouse Builder
- Управление данными SAS
- CloverETL
Также доступны решения с открытым исходным кодом, такие как
- Интеграция данных Pentaho (чайник)
- Открытая студия Таленд.