Может ли источник Scalding выбрать подмножество файлов в корзине S3 для обработки?

У меня есть работа Scalding, которая работает со всеми файлами в определенном временном сегменте S3. Это выглядит так:

JsonLine("s3://path/to/timestampedbuckets/2016-02-03/", ('key1, 'key2)).read

Я хочу изменить работу для работы с файлами в нескольких из этих временных отметок одновременно. Например, чтобы работать со всеми файлами в 2015 и 2016 годах, я хотел бы сделать что-то вроде этого:

JsonLine("s3://path/to/timestampedbuckets/201[56]-*", ('key1, 'key2)).read

или, в более общем плане, это:

def shouldProcess(path: String): Boolean = {...}
ChoosyJsonLine("s3://path/to/timestampedbuckets/", filepath => shouldProcess(filepath), ('key1, 'key2)).read

Так возможно ли для работы по масштабированию выборочно обрабатывать только некоторые файлы из входной корзины S3?

0 ответов

Другие вопросы по тегам