Хранить СДР в виде файла последовательности с разделами?

Я хочу сохранить Java RDD как файл последовательности с почасовым разделением. Есть ли способ добиться этого?

Например:

У меня есть записи типа:

time,a1,a2,a3,a4,a5,a6,a7,a8

Я хочу, чтобы ключ как a2,a3,a4 и значения, как все значения в этом ключе и разделенном столбце вовремя.

и в hdfs он будет храниться как::

output/time=12345/sequence_file_of_key_and_values

Sample input:
1486203462,1,45,66,77,ansh,72,976,58
1486203461,1,452,66,77,ansh5,456,8754,09865
1486203462,1,45,66,77,ansh9,772,976,5890
1486203461,1,452,66,77,ansh156,742,96,5951

Вывод будет выглядеть так:

output/time=1486203462/a sequence file with key as (1,45,66,77) and corresponding values as ((1486203462,1,45,66,77,ansh,72,976,58),
1486203462,1,45,66,77,ansh9,772,976,5890))

output/time=1486203461/a sequence file with key as (1,452,66,77) and corresponding values as ((1486203461,1,452,66,77,ansh5,456,8754,09865),(1486203461,1,452,66,77,ansh156,742,96,5951))

0 ответов

Другие вопросы по тегам