Может ли источник Scalding выбрать подмножество файлов в корзине S3 для обработки?
У меня есть работа Scalding, которая работает со всеми файлами в определенном временном сегменте S3. Это выглядит так:
JsonLine("s3://path/to/timestampedbuckets/2016-02-03/", ('key1, 'key2)).read
Я хочу изменить работу для работы с файлами в нескольких из этих временных отметок одновременно. Например, чтобы работать со всеми файлами в 2015 и 2016 годах, я хотел бы сделать что-то вроде этого:
JsonLine("s3://path/to/timestampedbuckets/201[56]-*", ('key1, 'key2)).read
или, в более общем плане, это:
def shouldProcess(path: String): Boolean = {...}
ChoosyJsonLine("s3://path/to/timestampedbuckets/", filepath => shouldProcess(filepath), ('key1, 'key2)).read
Так возможно ли для работы по масштабированию выборочно обрабатывать только некоторые файлы из входной корзины S3?