AWS клей дополнительная нагрузка

Question

AWS клей дополнительная нагрузка

У меня есть ведро S3, куда сбрасываются каждодневные файлы. Сканер AWS сканирует данные из этого места. В первый же день, когда запускается мое задание по склеиванию, он забирает все данные, присутствующие в таблице, созданной сканером AWS. Например, в первый же день есть три файла (т. Е. File1.txt,file2.txt, file3.txt) и связующее задание обрабатывают эти файлы в первый день выполнения связующего задания. На второй день еще два файла достигают местоположения S3. Теперь в расположении S3 это присутствующие файлы (т.е. file1.txt,file2.txt,file3.txt,file4.txt,file5.txt). Могу ли я каким-то образом спроектировать свой сканер AWS таким образом, чтобы на следующий день выполнения задания он просто считывал два файла (file4.txt,file5.txt)? Или еще, как я могу написать работу по склеиванию AWS только для идентификации этих инкрементных файлов?

4

amazon-web-services apache-spark aws-glue glue

Источник

user3533136 02 дек '18 в 04:02

2 ответа

Другие вопросы по тегам amazon-web-services apache-spark aws-glue glue

user7452905 02 дек '18 в 04:42 2018-12-02 04:42 · Answer 1 · 2018-12-02 04:42

Вам необходимо активировать закладку задания AWS для клея, и она сможет сохранять состояние уже обработанных данных, которые вы можете найти по ссылке ниже, чтобы узнать, как это сделать.

AWS клей работа закладки

7

Источник

user7452905 02 дек '18 в 04:42

user13189672 19 окт '22 в 21:33 2022-10-19 21:33 · Answer 2 · 2022-10-19 21:33

Вы можете реализовать промежуточную службу, например SQS. С учетом сказанного вы можете настроить SQS на ожидание событий или сообщений от S3 (такое событие Put в вашем случае), а затем вы можете настроить свой сканер для опроса SQS при поступлении нового сообщения, и это будет применяться для новые файлы.

Предыдущий ответ, отмеченный как правильный, не отвечает на ваш вопрос и/или сценарий.