Множественный ввод с несколькими мапперами с использованием MRJob

Можно ли реализовать опцию множественных входов с разными мапперами для каждого, как доступно в Hadoop с помощью mrjob? Если так, пример или любая ссылка на документацию были бы полезны.

РЕДАКТИРОВАТЬ: я пытаюсь реализовать пример, как в этом вопросе: Hadoop несколько входов. Единственная разница в том, что я хочу сделать это с помощью MRJob библиотека, как я должен работать с Python,

У меня есть данные, поступающие ежедневно. Я вычислю некоторые итоги на уровне дня для источника на день 1 A с форматом:

phone_number, call_minutes, datetime_of_event

приводя к выходу B такие как:

номер телефона (разделитель) month_of_year total_call_minutes

На второй день я получаю A для новой даты и времени. Теперь я хочу предоставить 1-й день B и день 2 A двум разным сопоставителям (Mapper M1 и M2 соответственно) одного и того же задания для обработки разных форматов с выводом сопоставителей, имеющих сходный формат ключ / значение. Это будет мне день 2 B который является совокупным итогом 1 и 2 дня вместе. Эта форма будет продолжаться ежедневно.

Я хотел бы знать, может ли это быть сделано через MRJob или любую другую библиотеку на основе Python для Hadoop.

PS: я думаю, что могу достичь этого, используя один картограф, используя дополнительное поле и на входе, и на выходе в качестве индикатора типа источника и обрабатывая каждую запись соответственно. Но я не очень заинтересован в использовании этого метода. Вот почему я ищу этот вариант, который, как мне кажется, гораздо чище.

0 ответов

Другие вопросы по тегам