Описание тега datastage

Описание тега Вопросы с тегом

DataStage - это компонент ETL (извлечение, преобразование, загрузка) пакета IBM InfoSphere Information Server. Он позволяет пользователю интегрировать различные источники данных и цели в корпоративную среду в качестве клиентского инструмента на основе графического интерфейса. Источники данных / цели могут быть таблицами базы данных, плоскими файлами, наборами данных, файлами CSV и т. Д. Базовая парадигма дизайна состоит из единицы работы, называемой заданием DataStage. Несколько заданий можно контролировать и условно упорядочивать с помощью "Последовательностей".

IBM® InfoSphere® DataStage® объединяет данные из нескольких систем, используя высокопроизводительную параллельную структуру, и поддерживает расширенное управление метаданными и возможность подключения к предприятию. Масштабируемая платформа обеспечивает более гибкую интеграцию всех типов данных, включая большие данные в состоянии покоя (на основе Hadoop) или в движении (на основе потоков), на распределенных платформах и платформах мэйнфреймов.

Подробнее здесь

InfoSphere DataStage предоставляет следующие функции и преимущества:

Мощная масштабируемая платформа ETL
Поддержка больших данных и Hadoop
Интеграция данных почти в реальном времени
Управление рабочей нагрузкой и бизнес-правилами
Легкость использования

Поддержка больших данных и Hadoop

Включает поддержку IBM InfoSphere BigInsights, Cloudera, Apache и Hortonworks Hadoop Distributed File System (HDFS).
Предлагает сбалансированную оптимизацию для возможностей Hadoop для ускорения обработки данных и повышения эффективности.
Поддерживает управление большими данными, включая такие функции, как анализ воздействия и происхождение данных

Мощная масштабируемая платформа ETL

Управляет данными, поступающими практически в реальном времени, а также данными, полученными на периодической или запланированной основе.
Обеспечивает высокопроизводительную обработку очень больших объемов данных.
Использует возможности параллельной обработки на многопроцессорных аппаратных платформах, чтобы помочь вам управлять растущими объемами данных и сокращением пакетных окон.
Поддерживает разнородные источники данных и целевые объекты в одном задании, включая текстовые файлы, XML, системы ERP, большинство баз данных (включая многораздельные базы данных), веб-службы и инструменты бизнес-аналитики.

Интеграция данных почти в реальном времени

Захватывает сообщения из очередей ориентированного на сообщения промежуточного программного обеспечения (MOM) с помощью Java Message Services (JMS) или адаптеров WebSphere MQ, позволяя объединять данные в соответствии с перспективами оперативного и исторического анализа.
Предоставляет сервис-ориентированную архитектуру (SOA) для публикации логики интеграции данных в виде общих сервисов, которые можно повторно использовать на предприятии.
Может одновременно поддерживать требования к высокой скорости и надежности обработки транзакций и требования к большим объемам данных при пакетной обработке.

Легкость использования

Включает консоль управления и интерактивный отладчик для параллельных заданий, чтобы помочь вам повысить производительность и ускорить решение проблем.
Помогает сократить цикл разработки и обслуживания проектов интеграции данных за счет упрощения администрирования и максимального использования ресурсов разработки.
Предлагает возможности операционного интеллекта, интеллектуальное управление метаданными и импортом метаданных, а также возможности параллельной отладки для повышения производительности при работе с секционированными данными.