Описание тега datastage

DataStage - это компонент ETL (извлечение, преобразование, загрузка) пакета IBM InfoSphere Information Server. Он позволяет пользователю интегрировать различные источники данных и цели в корпоративную среду в качестве клиентского инструмента на основе графического интерфейса.

DataStage - это компонент ETL (извлечение, преобразование, загрузка) пакета IBM InfoSphere Information Server. Он позволяет пользователю интегрировать различные источники данных и цели в корпоративную среду в качестве клиентского инструмента на основе графического интерфейса. Источники данных / цели могут быть таблицами базы данных, плоскими файлами, наборами данных, файлами CSV и т. Д. Базовая парадигма дизайна состоит из единицы работы, называемой заданием DataStage. Несколько заданий можно контролировать и условно упорядочивать с помощью "Последовательностей".

IBM® InfoSphere® DataStage® объединяет данные из нескольких систем, используя высокопроизводительную параллельную структуру, и поддерживает расширенное управление метаданными и возможность подключения к предприятию. Масштабируемая платформа обеспечивает более гибкую интеграцию всех типов данных, включая большие данные в состоянии покоя (на основе Hadoop) или в движении (на основе потоков), на распределенных платформах и платформах мэйнфреймов.

Подробнее здесь

InfoSphere DataStage предоставляет следующие функции и преимущества:

  • Мощная масштабируемая платформа ETL
  • Поддержка больших данных и Hadoop
  • Интеграция данных почти в реальном времени
  • Управление рабочей нагрузкой и бизнес-правилами
  • Легкость использования

Поддержка больших данных и Hadoop

  • Включает поддержку IBM InfoSphere BigInsights, Cloudera, Apache и Hortonworks Hadoop Distributed File System (HDFS).
  • Предлагает сбалансированную оптимизацию для возможностей Hadoop для ускорения обработки данных и повышения эффективности.
  • Поддерживает управление большими данными, включая такие функции, как анализ воздействия и происхождение данных

Мощная масштабируемая платформа ETL

  • Управляет данными, поступающими практически в реальном времени, а также данными, полученными на периодической или запланированной основе.

  • Обеспечивает высокопроизводительную обработку очень больших объемов данных.

  • Использует возможности параллельной обработки на многопроцессорных аппаратных платформах, чтобы помочь вам управлять растущими объемами данных и сокращением пакетных окон.

  • Поддерживает разнородные источники данных и целевые объекты в одном задании, включая текстовые файлы, XML, системы ERP, большинство баз данных (включая многораздельные базы данных), веб-службы и инструменты бизнес-аналитики.

Интеграция данных почти в реальном времени

  • Захватывает сообщения из очередей ориентированного на сообщения промежуточного программного обеспечения (MOM) с помощью Java Message Services (JMS) или адаптеров WebSphere MQ, позволяя объединять данные в соответствии с перспективами оперативного и исторического анализа.

  • Предоставляет сервис-ориентированную архитектуру (SOA) для публикации логики интеграции данных в виде общих сервисов, которые можно повторно использовать на предприятии.

  • Может одновременно поддерживать требования к высокой скорости и надежности обработки транзакций и требования к большим объемам данных при пакетной обработке.

Легкость использования

  • Включает консоль управления и интерактивный отладчик для параллельных заданий, чтобы помочь вам повысить производительность и ускорить решение проблем.

  • Помогает сократить цикл разработки и обслуживания проектов интеграции данных за счет упрощения администрирования и максимального использования ресурсов разработки.

  • Предлагает возможности операционного интеллекта, интеллектуальное управление метаданными и импортом метаданных, а также возможности параллельной отладки для повышения производительности при работе с секционированными данными.