AWS клей дополнительная нагрузка

У меня есть ведро S3, куда сбрасываются каждодневные файлы. Сканер AWS сканирует данные из этого места. В первый же день, когда запускается мое задание по склеиванию, он забирает все данные, присутствующие в таблице, созданной сканером AWS. Например, в первый же день есть три файла (т. Е. File1.txt,file2.txt, file3.txt) и связующее задание обрабатывают эти файлы в первый день выполнения связующего задания. На второй день еще два файла достигают местоположения S3. Теперь в расположении S3 это присутствующие файлы (т.е. file1.txt,file2.txt,file3.txt,file4.txt,file5.txt). Могу ли я каким-то образом спроектировать свой сканер AWS таким образом, чтобы на следующий день выполнения задания он просто считывал два файла (file4.txt,file5.txt)? Или еще, как я могу написать работу по склеиванию AWS только для идентификации этих инкрементных файлов?

2 ответа

Вам необходимо активировать закладку задания AWS для клея, и она сможет сохранять состояние уже обработанных данных, которые вы можете найти по ссылке ниже, чтобы узнать, как это сделать.

AWS клей работа закладки

Вы можете реализовать промежуточную службу, например SQS. С учетом сказанного вы можете настроить SQS на ожидание событий или сообщений от S3 (такое событие Put в вашем случае), а затем вы можете настроить свой сканер для опроса SQS при поступлении нового сообщения, и это будет применяться для новые файлы.

Предыдущий ответ, отмеченный как правильный, не отвечает на ваш вопрос и/или сценарий.

Другие вопросы по тегам