Описание тега aws-glue
AWS Glue - это полностью управляемая служба ETL (извлечение, преобразование и загрузка), которая может классифицировать ваши данные, очищать их, обогащать и перемещать между различными хранилищами данных. AWS Glue состоит из центрального репозитория данных, известного как каталог данных AWS Glue, механизма ETL, который автоматически генерирует код Python, и планировщика, который обрабатывает разрешение зависимостей, мониторинг заданий и повторные попытки. AWS Glue является бессерверным, поэтому нет инфраструктуры для управления.
AWS Glue состоит из ряда компонентов:
- Каталог данных (реализующий функциональность Hive Metastore) из источников данных AWS, в первую очередь S3, но также и из любого источника данных JDBC на AWS, включая Amazon RDS и Amazon Redshift
- Поисковые роботы, которые выполняют классификацию данных и обнаруживают схемы в данных S3 и регистрируют данные в каталоге данных.
- Платформа распределенной обработки данных, которая расширяет PySpark функциями для повышения гибкости схемы.
- Инструменты генерации кода для шаблонов и сценариев обработки данных начальной загрузки
- Планирование для сканеров и скриптов обработки данных
- Бессерверная разработка и выполнение скриптов в среде Apache Spark (2.x).
Данные, зарегистрированные в каталоге данных AWS Glue, доступны для многих сервисов AWS, включая
- Amazon Redshift Spectrum
- EMR (Hadoop, Hive, HBase, Presto, Spark, Impala и т. Д.)
- Амазонка Афина
- Скрипты AWS Glue