AWS клей дополнительная нагрузка
У меня есть ведро S3, куда сбрасываются каждодневные файлы. Сканер AWS сканирует данные из этого места. В первый же день, когда запускается мое задание по склеиванию, он забирает все данные, присутствующие в таблице, созданной сканером AWS. Например, в первый же день есть три файла (т. Е. File1.txt,file2.txt, file3.txt) и связующее задание обрабатывают эти файлы в первый день выполнения связующего задания. На второй день еще два файла достигают местоположения S3. Теперь в расположении S3 это присутствующие файлы (т.е. file1.txt,file2.txt,file3.txt,file4.txt,file5.txt). Могу ли я каким-то образом спроектировать свой сканер AWS таким образом, чтобы на следующий день выполнения задания он просто считывал два файла (file4.txt,file5.txt)? Или еще, как я могу написать работу по склеиванию AWS только для идентификации этих инкрементных файлов?
2 ответа
Вам необходимо активировать закладку задания AWS для клея, и она сможет сохранять состояние уже обработанных данных, которые вы можете найти по ссылке ниже, чтобы узнать, как это сделать.
Вы можете реализовать промежуточную службу, например SQS. С учетом сказанного вы можете настроить SQS на ожидание событий или сообщений от S3 (такое событие Put в вашем случае), а затем вы можете настроить свой сканер для опроса SQS при поступлении нового сообщения, и это будет применяться для новые файлы.
Предыдущий ответ, отмеченный как правильный, не отвечает на ваш вопрос и/или сценарий.