Подход для большого набора данных для отчетности

Question

Подход для большого набора данных для отчетности

У меня в AWS s3 220 миллионов необработанных файлов, которые я собирался объединить в один файл, который оценивается примерно в 10 терабайт. Файл слияния будет служить таблицей фактов, но в формате файла для целей отчетности для аудита.

Необработанные файлы являются исходными данными из приложения. Если в приложение будут внесены какие-либо новые данные, содержимое файла будет изменено.

Я хотел бы спросить, кто-нибудь сталкивался с этим сквозным процессом для этого пользовательского случая?

s3-> ETL (объединение файлов)-> s3 -> отчетность (таблица)

0

amazon-s3 architecture report tableau matillion

Источник

user11733624 03 июл '19 в 12:59

1 ответ

Другие вопросы по тегам amazon-s3 architecture report tableau matillion

user2448829 03 июл '19 в 17:51 2019-07-03 17:51 · Answer 1 · 2019-07-03 17:51

Я лично не пробовал это, но это своего рода то, для чего создана Athena... Пропуск вашего процесса ETL и запрос непосредственно из файлов. Есть ли причина, по которой вы записываете все это в один файл, а не разбрасываете его? Переписывать файл размером 10 ТБ снова и снова очень дорого и отнимает много времени... Я бы лично по крайней мере исследовал хранение файлов 1-1 с исходными файлами.

Создайте триггер s3, который срабатывает при перезаписи файла на s3
Создайте лямбду, которая создает ваши файлы отчетов "готов к аудиту" на s3
Используйте AWS Athena для запроса этих файлов отчетов.
Tableau разъем для Афины для ваших отчетов