ПРИСОЕДИНЯЙТЕСЬ И FOREACH в Apache Pig
Мне нужно знать, обязательно ли использовать FOREACH
для любого преобразования отношений в Apache Pig. Не могли бы вы помочь мне понять, какой из следующих подходов лучше и может помочь в улучшении производительности. Размеры файлов огромны.
Approach1:
A = LOAD 'input1' USING PigStorage(',') AS (id:int, name:chararray);
B = LOAD 'input2' USING PigStorage(',') AS (id:int, dept:int, dname:chararray);
C = JOIN A by id, B by id;
Approach2:
A = LOAD 'input1' USING PigStorage(',') AS (id:int, name:chararray);
B = LOAD 'input2' USING PigStorage(',') AS (id:int, dept:int, dname:chararray);
C = FOREACH A GENERATE id, name;
D = FOREACH B GENERATE id, dname;
E = JOIN C by id, D by id;
DUMP E;