Описание тега datastage
DataStage - это компонент ETL (извлечение, преобразование, загрузка) пакета IBM InfoSphere Information Server. Он позволяет пользователю интегрировать различные источники данных и цели в корпоративную среду в качестве клиентского инструмента на основе графического интерфейса. Источники данных / цели могут быть таблицами базы данных, плоскими файлами, наборами данных, файлами CSV и т. Д. Базовая парадигма дизайна состоит из единицы работы, называемой заданием DataStage. Несколько заданий можно контролировать и условно упорядочивать с помощью "Последовательностей".
IBM® InfoSphere® DataStage® объединяет данные из нескольких систем, используя высокопроизводительную параллельную структуру, и поддерживает расширенное управление метаданными и возможность подключения к предприятию. Масштабируемая платформа обеспечивает более гибкую интеграцию всех типов данных, включая большие данные в состоянии покоя (на основе Hadoop) или в движении (на основе потоков), на распределенных платформах и платформах мэйнфреймов.
InfoSphere DataStage предоставляет следующие функции и преимущества:
- Мощная масштабируемая платформа ETL
- Поддержка больших данных и Hadoop
- Интеграция данных почти в реальном времени
- Управление рабочей нагрузкой и бизнес-правилами
- Легкость использования
Поддержка больших данных и Hadoop
- Включает поддержку IBM InfoSphere BigInsights, Cloudera, Apache и Hortonworks Hadoop Distributed File System (HDFS).
- Предлагает сбалансированную оптимизацию для возможностей Hadoop для ускорения обработки данных и повышения эффективности.
- Поддерживает управление большими данными, включая такие функции, как анализ воздействия и происхождение данных
Мощная масштабируемая платформа ETL
Управляет данными, поступающими практически в реальном времени, а также данными, полученными на периодической или запланированной основе.
Обеспечивает высокопроизводительную обработку очень больших объемов данных.
Использует возможности параллельной обработки на многопроцессорных аппаратных платформах, чтобы помочь вам управлять растущими объемами данных и сокращением пакетных окон.
Поддерживает разнородные источники данных и целевые объекты в одном задании, включая текстовые файлы, XML, системы ERP, большинство баз данных (включая многораздельные базы данных), веб-службы и инструменты бизнес-аналитики.
Интеграция данных почти в реальном времени
Захватывает сообщения из очередей ориентированного на сообщения промежуточного программного обеспечения (MOM) с помощью Java Message Services (JMS) или адаптеров WebSphere MQ, позволяя объединять данные в соответствии с перспективами оперативного и исторического анализа.
Предоставляет сервис-ориентированную архитектуру (SOA) для публикации логики интеграции данных в виде общих сервисов, которые можно повторно использовать на предприятии.
Может одновременно поддерживать требования к высокой скорости и надежности обработки транзакций и требования к большим объемам данных при пакетной обработке.
Легкость использования
Включает консоль управления и интерактивный отладчик для параллельных заданий, чтобы помочь вам повысить производительность и ускорить решение проблем.
Помогает сократить цикл разработки и обслуживания проектов интеграции данных за счет упрощения администрирования и максимального использования ресурсов разработки.
Предлагает возможности операционного интеллекта, интеллектуальное управление метаданными и импортом метаданных, а также возможности параллельной отладки для повышения производительности при работе с секционированными данными.