AWS: федерация данных для хранилища данных (запрашивать много источников одновременно)?

Вызов

Существует несколько групп инженеров BI, которым необходимо применять расширенную аналитику к данным, находящимся в различных хранилищах AWS: S3, Dynamo DB, Aurora и т. Д. Это означает, что им нужно не только объединять данные из нескольких экземпляров одного и того же типа хранилища (например, Базы данных RDS), но для сбора и объединения данных из разных типов хранилищ для сравнения (например, S3 и RDS).

Точнее, они отправляют специальные запросы, и этот запрос может включать различные типы хранилищ. Так что я ищу инструмент объединения данных, который можно использовать для решения задачи и эффективного (баланс между затратами, задержкой и пропускной способностью) развертывания в AWS.

В идеале в системе также должен использоваться каталог данных, похожий на Hive-Metastore (например, предоставляемый чем-то вроде AWS Glue) (чтобы получить представление о данных для инженеров BI и ускорить выполнение запросов, по крайней мере, по S3)

идеи

Первый вариант, который я вижу, это использовать EMR с Presto, развернутым на уровне публикации. Он предоставит подход MPP для объединения данных, будет интегрирован с каталогом данных Hive/Glue и предоставит REST API из коробки (по сравнению, скажем, с Spark SQL, которому для этого нужен Thrift (и он плохо масштабируется)),

На первый взгляд это кажется рабочим решением, но, поскольку у меня нет производственного опыта с такими развертываниями, у меня есть ощущение, что могут возникнуть проблемы с масштабируемостью, задержкой запросов и, конечно же, стоимостью EMR + Presto. кластера, особенно если по какой-то причине мне потребуется поставить веб-сервер или API Gateway + Lambda для решения проблем безопасности или любой другой проблемы с предоставлением прямого доступа к Presto REST API...

Дополнительные примечания

Существует вероятность того, что вместо AWS Glue потребуется использовать Talend для каталогизации данных и оркестровки ELT. Первая ссылка в Google на эту тему дает строку: "Никогда не пытайтесь использовать Presto с Talend".

Любые предложения по эталонной архитектуре, лучшие практики, альтернативы, даже просто идеи высоко ценятся!

0 ответов

Другие вопросы по тегам