Описание тега aws-glue

AWS Glue - это полностью управляемая служба ETL (извлечение, преобразование и загрузка), которая может классифицировать ваши данные, очищать их, обогащать и перемещать между различными хранилищами данных. AWS Glue состоит из центрального репозитория данных, известного как каталог данных AWS Glue, механизма ETL, который автоматически генерирует код Python, и планировщика, который обрабатывает разрешение зависимостей, мониторинг заданий и повторные попытки. AWS Glue является бессерверным, поэтому нет инфраструктуры для управления.

AWS Glue состоит из ряда компонентов:

  1. Каталог данных (реализующий функциональность Hive Metastore) из источников данных AWS, в первую очередь S3, но также и из любого источника данных JDBC на AWS, включая Amazon RDS и Amazon Redshift
  2. Поисковые роботы, которые выполняют классификацию данных и обнаруживают схемы в данных S3 и регистрируют данные в каталоге данных.
  3. Платформа распределенной обработки данных, которая расширяет PySpark функциями для повышения гибкости схемы.
  4. Инструменты генерации кода для шаблонов и сценариев обработки данных начальной загрузки
  5. Планирование для сканеров и скриптов обработки данных
  6. Бессерверная разработка и выполнение скриптов в среде Apache Spark (2.x).

Данные, зарегистрированные в каталоге данных AWS Glue, доступны для многих сервисов AWS, включая

  • Amazon Redshift Spectrum
  • EMR (Hadoop, Hive, HBase, Presto, Spark, Impala и т. Д.)
  • Амазонка Афина
  • Скрипты AWS Glue