ПРИСОЕДИНЯЙТЕСЬ И FOREACH в Apache Pig

Мне нужно знать, обязательно ли использовать FOREACH для любого преобразования отношений в Apache Pig. Не могли бы вы помочь мне понять, какой из следующих подходов лучше и может помочь в улучшении производительности. Размеры файлов огромны.

Approach1:

A = LOAD 'input1' USING PigStorage(',') AS (id:int, name:chararray);
B = LOAD 'input2' USING PigStorage(',') AS (id:int, dept:int, dname:chararray);
C = JOIN A by id, B by id;

Approach2:

A = LOAD 'input1' USING PigStorage(',') AS (id:int, name:chararray);
B = LOAD 'input2' USING PigStorage(',') AS (id:int, dept:int, dname:chararray);
C = FOREACH A GENERATE id, name;
D = FOREACH B GENERATE id, dname;
E = JOIN C by id, D by id;
DUMP E;

0 ответов

Другие вопросы по тегам