Описание тега hadoop-streaming

Потоковая передача Hadoop - это утилита, которая позволяет запускать задания сокращения карты с использованием любого исполняемого файла, который читает из стандартного ввода и записывает в стандартный вывод.
1 ответ

Передача нескольких путей к cmdenv в потоковой передаче hadoop

Я использую Hadoop streaming jar и пытается передать переменную среды, которая указывает на несколько путей, используя -cmdenv. hadoop jar ../hadoop-streaming.jar \ -libjars .../something.jar \ -inputFormat ..CustomInputFormat \ -file mapper.py \ -f…
15 окт '14 в 14:24
1 ответ

Как сохранить документ Word в HDFS

Я новичок в Hadoop и хотел узнать, как проще всего сохранить файл текстового документа, который автоматически отправляется в HDFS
11 июн '14 в 16:07
1 ответ

Эффективный подсчет слов Hadoop для большого файла

Я хочу реализовать редуктор hadoop для подсчета слов. В моем редукторе я использую хеш-таблицу для подсчета слов. Но если мой файл очень большой, хеш-таблица будет использовать слишком много памяти. Как я могу решить эту проблему? (Например, файл с …
01 дек '12 в 20:12
1 ответ

Что означает чтение данных как "потоковая мода"?

Я читал Apache Crunch documentation и я нашел следующее предложение: Данные считываются из файловой системы в потоковом режиме, поэтому не требуется, чтобы содержимое PCollection помещалось в память, чтобы оно могло быть прочитано клиентом с использ…
2 ответа

Импорт текстового файла: нет столбцов для анализа из файла

Я пытаюсь получить информацию от sys.stdin. Это программа-редуктор карт для hadoop. Входной файл в текстовом виде. Предварительный просмотр набора данных: 196 242 3 881250949 186 302 3 891717742 22 377 1 878887116 244 51 2 880606923 166 346 1 886397…
22 окт '16 в 14:45
1 ответ

Как создать пользовательский файл с уникальным именем на этапе редуктора Hadoop Map Reduce Framework(в Python))

Я написал один код для редуктора, который будет читать вывод из картографа. И тогда он создаст новый файл с именем ключа, и все значения, соответствующие одному и тому же ключу, будут сохранены в одном файле. Мой код: !/usr/bin/env python import sys…
21 июл '16 в 16:10
1 ответ

Как сделать 3-х этапную Карту Сокращения потоковой передачи?

Я очень новичок в Hadoop. В настоящее время у меня есть картограф и редуктор и сумматор. И я мог сделать cat file | mapper.py | reducer.py | combiner.py произвести результат. И стадия сокращения смущающе парализует. Итак, может кто-нибудь сказать мн…
30 янв '15 в 05:54
1 ответ

mongo-hadoop streaming mapper.py не найден

Я получаю следующую ошибку при запуске потоковой передачи mongo-hadoop: java.io.IOException: Cannot run program "mapper.py": error=2, No such file or directory at java.lang.ProcessBuilder.start(ProcessBuilder.java:460) at org.apache.hadoop.streaming…
25 июн '12 в 19:33
2 ответа

Отладка потоковой проги Hadoop

У меня есть данные в форме id, movieid , date, time 3710100, 13502, 2012-09-10, 12:39:38.000 Теперь в основном то, что я хочу сделать, это.. Я хочу узнать, сколько раз конкретный фильм смотрят с 7 до 11 утра с 30-минутным интервалом Так что в основн…
20 ноя '12 в 03:36
2 ответа

Потоковая передача hadoop: похоже, что редуктор не работает, когда mapred.reduce.tasks=1

Я бегу базовый Map Reduce программа через hadoop-streaming Map похоже import sys index = int(sys.argv[1]) max = 0 for line in sys.stdin: fields = line.strip().split(",") if fields[index].isdigit(): val = int(fields[index]) if val > max: max = val…
30 июл '12 в 23:08
1 ответ

Ошибка потоковой передачи Hadoop в Python "ОШИБКА streaming.StreamJob: задание не выполнено!" и трассировка стека: ExitCodeException exitCode=134

Я пытаюсь запустить скрипт Python на кластере Hadoop, используя Hadoop Streaming для анализа настроений. Тот же скрипт, который я запускаю на локальной машине, которая работает правильно и выдает результат.для запуска на локальной машине я использую…
1 ответ

hadoop: иметь более одного редуктора в псевдораспределенной среде?

Я новичок в Hadoop. Я успешно настроил настройку hadoop в псевдораспределенном режиме. Я хочу иметь несколько редукторов с опцией -D mapred.reduce.tasks=2 (с потоковой передачей) однако есть только один редуктор. согласно Google, я уверен, что mapre…
17 июл '13 в 08:51
4 ответа

Как решить java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): сбой подпроцесса с кодом 2?

Я пытаюсь выполнить NLTK в среде Hadoop. Ниже приведена команда, которую я использовал для исполнения. bin / hadoop jar $ HADOOP_HOME / contrib / streaming / hadoop-streaming-1.0.4.jar -input / пользователь /nltk/input/ -output / пользователь / nltk…
06 май '13 в 11:23
0 ответов

Работа Hadoop терпит неудачу между

Я совершенно новичок в Hadoop, пока выполняю работу hadoop. Моя работа останавливается на map 67% reduce 0% с тайм-аутом 600сек ошибка не может понять, в чем проблема. Я изменил свой yarn-site.xml из одного ответа о переполнении стека. Мой маппер и …
25 июл '18 в 12:52
1 ответ

Ошибка установки Cloudera Я хочу знать, можем ли мы использовать менеджер Cloudera для кластера Hadoop с одним узлом в Ubuntu?

Я использую Ubuntu 12.04 64bit, я успешно установил и запустил примеры программ hadoop с одним узлом. Я получаю следующую ошибку при установке менеджера Cloudera на мою Ubuntu Не удалось обновить метаданные репозитория. Подробности смотрите в /var/l…
1 ответ

Пример потоковой передачи Hadoop 'cat' и 'wc' --- как на самом деле работают преобразователь 'cat' и редуктор 'wc'

У меня вопрос такой. Apache Hadoop в своей документации упоминает следующий пример кода для потоковой передачи hadoop: $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper /bin/cat \ -red…
22 сен '18 в 08:36
2 ответа

Проблемы с входными данными Hadoop

У меня проблемы с функциями карты: исходные данные хранятся в файле tsv: я просто хочу сохранить последние два столбца: первый - исходный узел (383), второй - цель (4575), третий - вес (1) 383 4575 1 383 4764 1 383 5458 1 383 5491 1 public void map(…
23 мар '15 в 04:17
2 ответа

Есть ли способ указать название задания из mrjob в веб-интерфейсе администрирования Hadoop?

У меня есть несколько разных заданий, запущенных из библиотеки Python mrjob, включая задания с несколькими шагами. Как я могу заменить streamjob с пользовательским именем? Например, wordcount_step_1, wordcount_step_2, так далее.
20 мар '13 в 22:36
1 ответ

Ограничить количество файлов (блоков) в наборе данных hadoop?

У меня проблема с набором данных hadoop, разбитым на слишком много блоков данных. Учитывая уже существующий набор данных hadoop, есть ли способ объединить его блоки в меньшее, но большее количество блоков? Есть ли способ дать pig или же hadoop-strea…
1 ответ

Ошибка при выполнении Pig Script с использованием Spring xd

Я пытаюсь выполнить фрагмент кода с использованием Spring xd, но не могу этого сделать. Я создал работу, используя следующую команду job create --name Pig_job --definition "PigTest" --deploy Определение задания PigTest определяется следующим образом…