Клей для AWS: развертывание модели в среде AWS

В соответствии с нашей средой AWS у нас есть 2 разных типа SAG(группа сервисных аккаунтов) для хранения данных. Один SAG предназначен для общего хранилища, другой SAG - для защищенных данных, которые будут содержать только PII или ограниченные данные. В нашей среде мы планируем развернуть Glue. В таком случае, будет ли у нас одно хранилище метаданных как над безопасным, так и над небезопасным? Если бы нам понадобилось два метамагазина, как бы это работало с Databricks? Если одно хранилище метаданных, как обрабатывать безопасные данные? Пожалуйста, помогите нам получить более подробную информацию об этом в.

2 ответа

Решение
  1. Если вы используете один регион с одной учетной записью AWS, будет только одно хранилище метаданных как для защищенных, так и для общих данных, и вам придется обрабатывать доступ с помощью детализированных политик доступа.
  2. Лучшим подходом было бы использование 2 разных регионов в одной учетной записи AWS или двух разных учетных записей AWS, чтобы можно было легко управлять доступом для двух разных хранилищ метаданных.

Чтобы интегрировать ваше хранилище метаданных с Databricks для (1), вам необходимо создать два профиля экземпляра Glue Catalog с доступом на уровне ресурсов. Один профиль экземпляра будет иметь доступ к общей базе данных и таблицам, а другой - к защищенным базам данных и таблицам.

Чтобы интегрировать ваши хранилища метаданных с Databricks для (2), вы просто создадите два профиля экземпляра Glue Catalog с доступом к соответствующему хранилищу метаданных.

Рекомендуется выбрать второй вариант, так как это сэкономит вам много средств на обслуживание и человеческих ошибок при более длительной эксплуатации. Подробнее об интеграции Glue Catalog и Databricks.

Изменить: на основе обсуждения в комментариях, если нам нужно получить доступ к обоим наборам данных в одной и той же среде выполнения Databricks, вариант 2 не будет работать. Вариант 1 можно использовать с двумя наборами разрешений. Первый - только для общих данных, второй - для общих и защищенных данных.

В AWS Glue у каждой учетной записи AWS есть одно постоянное хранилище метаданных для каждого региона (так называемый каталог Glue Data). Он содержит определения баз данных, определения таблиц, задания и другую контрольную информацию для управления средой AWS Glue. Вы управляете разрешениями для этих объектов с помощью IAM (например, кто может выполнять вызовы GetTable или GetDatabase API для этих объектов).

В дополнение к разрешениям AWS Glue вам также потребуется настроить разрешения для самих данных (например, кто может вызывать GetObject API для данных, хранящихся на S3).

Итак, отвечая на ваши вопросы. Да, у вас будет единый каталог данных. Однако, в зависимости от ваших требований к безопасности, вы сможете определять разрешения на основе ресурсов и ролей для метаданных и содержимого.

Вы можете найти подробный обзор здесь - https://aws.amazon.com/blogs/big-data/restrict-access-to-your-aws-glue-data-catalog-with-resource-level-iam-permissions-and-resource-based-policies

Другие вопросы по тегам