Mrjob is a Python 2.5+ package that assists the creation and running of Hadoop Streaming jobs
1 ответ

Объявите mrjob mapper без игнорирования ключа

Я хочу объявить функцию сопоставления с mrjob. Поскольку моя функция отображения должна ссылаться на некоторые константы для выполнения некоторых вычислений, поэтому я решил поместить эти константы в ключ в преобразователе (есть ли другой способ?). …
16 ноя '15 в 22:38
1 ответ

Минимальные требования политики AWS для запуска задания EMR

Я хотел бы запустить Elastic Mapreduce на данных из корзины S3 com.test.mybucketс использованием среды MRJob Python. Однако у меня есть много других данных в S3 и других экземплярах EC2, которые я не хочу касаться. Каков минимально возможный набор у…
1 ответ

mrjob Исключение NoFIleFound с кластером cloudera cdh 5

Я получаю эту ошибку при попытке запустить пример mrjob на кластере hadoop. Я настроил свой hadoop_home, и я также могу создать новый каталог в файловой системе hdfs. Я могу запустить Python Map-Reduce, если я использую потоковое Hadoop. Только с mr…
26 фев '15 в 17:29
1 ответ

Как конкретно определить вход для каждого шага карты в MRJob?

Я работаю над работой по сокращению карты, состоящей из нескольких этапов. Используя mrjob каждый шаг получает вывод предыдущего шага. Проблема в том, что я этого не хочу. То, что я хочу, это извлечь некоторую информацию и использовать ее на втором …
28 сен '14 в 06:20
1 ответ

Входной файл для локальных MRJobs

Я изучаю / тестирую mrjobs на своем ноутбуке, используя пример wordcount. Я могу предоставить локальный файл в качестве ввода в командном режиме, но не знаю, как сделать то же самое из скрипта Python. Очень ценю простой пример. Спасибо анант
31 май '13 в 08:50
1 ответ

Как выполнить окончательный оператор print один раз в многошаговой программе уменьшения карты?

Я в основном пытаюсь внедрить систему рекомендаций, расширяя ее на Hadoop. На первом этапе я пытаюсь вычислить сходство между каждой парой элементов во входном файле. Если я храню его просто как {Пункт A, Пункт B, Сходство} размер выходного файла ст…
2 ответа

Есть ли способ указать название задания из mrjob в веб-интерфейсе администрирования Hadoop?

У меня есть несколько разных заданий, запущенных из библиотеки Python mrjob, включая задания с несколькими шагами. Как я могу заменить streamjob с пользовательским именем? Например, wordcount_step_1, wordcount_step_2, так далее.
20 мар '13 в 22:36
1 ответ

mrjob bad - ошибка шагов при использовании make_runner в кластере Hadoop

Я пытаюсь запустить простой пример WordCount программно, но я не могу заставить код работать на кластере hadoop. работа в test_job.py: from mrjob.job import MRJob import re WORD_RE = re.compile(r"[\w']+") class MRWordFreqCount(MRJob): def mapper(sel…
19 окт '14 в 11:01
2 ответа

Установка Anaconda на Ubuntu 14.04 - установка mrjob

Установка прошла нормально, за исключением трех последних пакетов: mrjob, pattern, and seaborn Я смог установить их из терминала, однако они были установлены в моей старой среде Python, а не в среде анаконды. Как я могу установить эти пакеты в мою с…
2 ответа

Контейнер заданий MapReduce уничтожен Google Cloud Platform [Код ошибки:143]

Я попытался запустить задание mapreduce на кластере в Google Cloud Platform с помощью пакета Python mrjob следующим образом: python mr_script.py -r dataproc --cluster-id [CLUSTER-ID] [gs://DATAFILE_FOLDER] Я могу успешно запустить тот же сценарий дл…
1 ответ

Как создать бегунка из гадюки?

У меня есть следующие простые mrjob script, построчно считывающий большой файл, выполняет операцию над каждой строкой и печатает вывод: #!/usr/bin/env python from mrjob.job import MRJob class LineProcessor(MRJob): def mapper(self, _, line): yield (l…
27 авг '13 в 01:30
1 ответ

mrjob вернул ненулевой статус выхода 256

Я новичок в уменьшении карты, и я пытаюсь запустить работу сокращения карты, используя mrjob пакет из питона. Однако я столкнулся с этой ошибкой: ERROR:mrjob.launch:Step 1 of 1 failed: Command '['/usr/bin/hadoop', 'jar', '/usr/lib/hadoop-mapreduce/h…
31 авг '18 в 04:16
2 ответа

Ошибка при запуске примера подсчета слов в python mrjob

Я пытаюсь выполнить пример карты уменьшения количества слов с помощью mrjob. Я получаю следующую ошибку: Traceback (most recent call last): File "mr.py", line 3, in <module> from mrjob.job import MRJob File "/Library/Frameworks/EPD64.framework…
10 июл '12 в 11:49
1 ответ

Ошибка установки пакета в Python

Я пытаюсь установить пакет Mrjob для Python и получаю следующую ошибку: AJs-MacBook-Pro-13:~ aj$ conda install -c asmeurer mrjob Fetching package metadata ............. Solving package specifications: . UnsatisfiableError: The following specificatio…
02 дек '17 в 06:22
2 ответа

Как файлы данных должны быть включены в mrjob на EMR?

Я пытаюсь запустить mrjob на EMR Amazon. Я тестировал работу локально, используя встроенный бегун, но он не работает при работе на Amazon. Я сузил ошибку до моей зависимости от внешнего файла данных zip_codes.txt, Если я запускаю без этой зависимост…
24 сен '13 в 00:40
1 ответ

Python: Как я могу индексировать в MapReduce(MRJob)?

Я хочу проиндексировать результат редуктора следующим образом: 1 "EZmocAborM6z66rTzeZxzQ" 2 "FIk4lQQu1eTe2EpzQ4xhBA" 3 "myql3o3x22_ygECb8gVo7A" 4 "ojovtd9c8GIeDiB8e0mq2w" 5 "uVEoZmmL9yK0NMgadLL0CQ" мой Python MRJob код: class MRUserDic(MRJob): count…
31 мар '17 в 03:45
1 ответ

Python: увеличение значения тайм-аута в EMR с помощью yelps MRJOB

Я использую MRIob yelp для написания некоторых программ mapreduce. Я запускаю его на EMR. В моей программе есть код редуктора, выполнение которого занимает много времени. Я замечаю, что из-за периода ожидания по умолчанию в EMR я получаю эту ошибку …
3 ответа

Записать некоторые данные (строки) из моих картографов в отдельные каталоги в зависимости от логики в моем коде картографа

Я использую mrjob для своих нужд EMR. Как мне записать некоторые данные (строки) из моих сопоставителей в "отдельные каталоги", в зависимости от некоторой логики в моем коде сопоставления, которую я могу: тар гзип и загрузить в отдельные сегменты S3…
18 июн '12 в 21:59
1 ответ

Разбор HTML .txt файлов в Hadoop через MapReduce с использованием Python

Я очень плохо знаком с использованием платформы Hadoop и определением функций MapReduce, и мне трудно понять, почему этот маппер не работает в моем скрипте MapReduce. Я пытаюсь проанализировать коллекцию страниц, записанных в виде строки в файле.txt…
29 апр '17 в 02:48
1 ответ

MRJob-Поиск длины значений для редуктора

Я пишу программу на основе MapReduce, используя MRJob. У меня вопрос по параметрам редуктора. Как вы знаете, функция Reducer принимает два параметра, которые являются ключевыми и значениями. Я хочу найти длину значений без записи каких-либо условий …
06 фев '17 в 19:11