Множественный ввод с несколькими мапперами с использованием MRJob
Можно ли реализовать опцию множественных входов с разными мапперами для каждого, как доступно в Hadoop
с помощью mrjob
? Если так, пример или любая ссылка на документацию были бы полезны.
РЕДАКТИРОВАТЬ: я пытаюсь реализовать пример, как в этом вопросе: Hadoop несколько входов. Единственная разница в том, что я хочу сделать это с помощью MRJob
библиотека, как я должен работать с Python
,
У меня есть данные, поступающие ежедневно. Я вычислю некоторые итоги на уровне дня для источника на день 1 A
с форматом:
phone_number, call_minutes, datetime_of_event
приводя к выходу B
такие как:
номер телефона (разделитель) month_of_year total_call_minutes
На второй день я получаю A
для новой даты и времени. Теперь я хочу предоставить 1-й день B
и день 2 A
двум разным сопоставителям (Mapper M1 и M2 соответственно) одного и того же задания для обработки разных форматов с выводом сопоставителей, имеющих сходный формат ключ / значение. Это будет мне день 2 B
который является совокупным итогом 1 и 2 дня вместе. Эта форма будет продолжаться ежедневно.
Я хотел бы знать, может ли это быть сделано через MRJob или любую другую библиотеку на основе Python для Hadoop.
PS: я думаю, что могу достичь этого, используя один картограф, используя дополнительное поле и на входе, и на выходе в качестве индикатора типа источника и обрабатывая каждую запись соответственно. Но я не очень заинтересован в использовании этого метода. Вот почему я ищу этот вариант, который, как мне кажется, гораздо чище.