Клей для AWS: развертывание модели в среде AWS
В соответствии с нашей средой AWS у нас есть 2 разных типа SAG(группа сервисных аккаунтов) для хранения данных. Один SAG предназначен для общего хранилища, другой SAG - для защищенных данных, которые будут содержать только PII или ограниченные данные. В нашей среде мы планируем развернуть Glue. В таком случае, будет ли у нас одно хранилище метаданных как над безопасным, так и над небезопасным? Если бы нам понадобилось два метамагазина, как бы это работало с Databricks? Если одно хранилище метаданных, как обрабатывать безопасные данные? Пожалуйста, помогите нам получить более подробную информацию об этом в.
2 ответа
- Если вы используете один регион с одной учетной записью AWS, будет только одно хранилище метаданных как для защищенных, так и для общих данных, и вам придется обрабатывать доступ с помощью детализированных политик доступа.
- Лучшим подходом было бы использование 2 разных регионов в одной учетной записи AWS или двух разных учетных записей AWS, чтобы можно было легко управлять доступом для двух разных хранилищ метаданных.
Чтобы интегрировать ваше хранилище метаданных с Databricks для (1), вам необходимо создать два профиля экземпляра Glue Catalog с доступом на уровне ресурсов. Один профиль экземпляра будет иметь доступ к общей базе данных и таблицам, а другой - к защищенным базам данных и таблицам.
Чтобы интегрировать ваши хранилища метаданных с Databricks для (2), вы просто создадите два профиля экземпляра Glue Catalog с доступом к соответствующему хранилищу метаданных.
Рекомендуется выбрать второй вариант, так как это сэкономит вам много средств на обслуживание и человеческих ошибок при более длительной эксплуатации. Подробнее об интеграции Glue Catalog и Databricks.
Изменить: на основе обсуждения в комментариях, если нам нужно получить доступ к обоим наборам данных в одной и той же среде выполнения Databricks, вариант 2 не будет работать. Вариант 1 можно использовать с двумя наборами разрешений. Первый - только для общих данных, второй - для общих и защищенных данных.
В AWS Glue у каждой учетной записи AWS есть одно постоянное хранилище метаданных для каждого региона (так называемый каталог Glue Data). Он содержит определения баз данных, определения таблиц, задания и другую контрольную информацию для управления средой AWS Glue. Вы управляете разрешениями для этих объектов с помощью IAM (например, кто может выполнять вызовы GetTable или GetDatabase API для этих объектов).
В дополнение к разрешениям AWS Glue вам также потребуется настроить разрешения для самих данных (например, кто может вызывать GetObject API для данных, хранящихся на S3).
Итак, отвечая на ваши вопросы. Да, у вас будет единый каталог данных. Однако, в зависимости от ваших требований к безопасности, вы сможете определять разрешения на основе ресурсов и ролей для метаданных и содержимого.
Вы можете найти подробный обзор здесь - https://aws.amazon.com/blogs/big-data/restrict-access-to-your-aws-glue-data-catalog-with-resource-level-iam-permissions-and-resource-based-policies