Поиск и подсчет общего количества экземпляров определенного шаблона в корзине s3 без загрузки файла

Question

Поиск и подсчет общего количества экземпляров определенного шаблона в корзине s3 без загрузки файла

Мне нужно посчитать количество строк с соответствующими шаблонами в сегментах s3. Я использую команду -:

s3cmd ls --recursive s3://mys3.com/bucket1/ | awk '{print $4}' | grep '.lzo' | xargs -I@ s3cmd get @ - | zgrep 'my-pattern-of-interest-1' |  zgrep 'my-pattern-of-interest-2'|wc -l

но это все равно загружает файлы физически, есть ли внешняя утилита (например, с boto), где я могу сделать то же самое, но без физической загрузки файла? Мне нужно тщательно сканировать данные за 4-5 месяцев, поэтому я хочу избежать загрузки любой ценой.

0

amazon-s3 boto s3cmd

Источник

user2206566 18 фев '15 в 19:10

1 ответ

Другие вопросы по тегам amazon-s3 boto s3cmd

user653643 18 фев '15 в 21:20 2015-02-18 21:20 · Answer 1 · 2015-02-18 21:20

На самом деле нет никакого способа проанализировать содержимое объектов в S3 без получения содержимого объектов. Вы можете запустить один или два экземпляра EC2 и выполнить там обработку, чтобы вам не приходилось копировать данные на локальный компьютер. Это, безусловно, будет быстрее. В дальнейшем вы можете использовать AWS Lambda для обработки всякий раз, когда новые файлы загружаются в корзину. Но я не знаю, как заставить Lambda обрабатывать все существующие объекты в S3.