Конвейер данных - выгрузка больших файлов из ответов API в AWS с последующим назначением на сервере SQL Server.
Я новичок в создании конвейеров данных, где дамп файлов в облаке - это один или несколько шагов в потоке данных. Наша цель - хранить большие, необработанные наборы данных из различных API в облаке, а затем извлекать только то, что нам нужно (сводные данные этих необработанных данных), и хранить это в нашем локальном SQL Server для отчетов и аналитики. Мы хотим сделать это максимально простым, логичным и надежным способом. Мы выбрали AWS в качестве нашего облачного провайдера, но, поскольку мы на начальных этапах, не привязаны к какой-либо конкретной архитектуре / сервисам. Поскольку я не являюсь экспертом ни в облаке, ни в AWS, я решил опубликовать свою мысль о том, как мы можем достичь нашей цели, и посмотреть, есть ли у нас какие-либо советы для нас. Имеет ли смысл эта архитектура для нашего конвейера данных? Существуют ли альтернативные сервисы или потоки данных, на которые мы должны обратить внимание? Заранее спасибо.
1) Сбор данных из нескольких источников (с помощью API)
2) Дамп ответов от API в S3 корзины
3) Используйте сканеры клея для создания каталога данных в сегментах S3
4) Используйте Athena для запроса сводок данных в S3
5) Хранить сводки данных, полученные по запросам Athena, в локальном SQL Server.
Примечание. Мы запрограммируем весь конвейер данных с использованием Python (что кажется хорошим и легким вызовом, независимо от того, какие сервисы AWS мы используем в качестве boto3, довольно удивительно из того, что я видел до сих пор).
1 ответ
Вы можете использовать клеевые задания (pyspark) для #4 и #5. Вы можете автоматизировать поток, используя триггеры клея