Описание тега hadoopy

Hadoopy - это оболочка Python для потоковой передачи Hadoop, написанная на Cython. Это просто и быстро. Hadoopy позволяет нам выполнять сценарии python hadoop map-Reduction и Streaming. Он предоставляет интерфейс, аналогичный Hadoop API, для простого доступа к Hdf, например, для просмотра файлов, создания каталогов и т. Д., Также позволяет читать / записывать файлы последовательности TypedBytes непосредственно в HDFS в python. Основным преимуществом Hadoopy является то, что он полностью совместим с Oozie, для запуска нескольких рабочих процессов.
1 ответ

pydoop vs hadoopy - клиент python hadoop

В поисках клиента Python для Hadoop я обнаружил два модуля: pydoop и hadoopy. Кажется, что оба достаточно хороши для работы, но не уверены, какой из них имеет больше преимуществ, чем другой, чтобы установить один.
13 фев '14 в 12:48
1 ответ

Как разделены ключи, значения и записи в потоковой передаче Hadoop, типизированных байтах и ​​/ или необработанных байтах

Я понимаю, что текстовые записи в потоковой передаче Hadoop отделяются символом новой строки и что между ключами и значениями есть настраиваемый разделитель (по умолчанию tab). 1) Структура формата rawbytes предполагает отсутствие необходимости в ра…
20 авг '12 в 00:59
0 ответов

Как прочитать файл CSV из HDFS через Hadoopy?

Я пытаюсь подключить Python к HDFS, чтобы я мог читать этот файл строка за строкой. Я попытался прочитать учебник по Hadoopy, но он считывает данные из HDFS, которые существуют в виде пар ключ-значение. Каким должен быть мой подход? Я попробовал это…
05 июн '15 в 06:16
0 ответов

Чтение файла из HDFS с использованием Hadoopy

Я использую Python для чтения файлов из HDFS. Используемая библиотека - Hadoopy.Ранее мне удалось записать соответствующий файл в HDFS с помощью Hadoopy.Но он не читает из HDFS и не сохраняет в локальной файловой системе. Код вставлен ниже: import h…
27 дек '16 в 07:14
1 ответ

hadoopy.launch_frozen Невозможно выполнить скрипт

Я запускаю команду hadoopy.launch_frozen. Когда я запускаю свой скрипт, появляется эта ошибка: File "Task.py", line 22, in <module> hadoopy.launch_frozen(data_path, output_path, 'Main.py', temp_path=tmp_path) File "/home/aflores/code/pemex/src…
29 июл '15 в 23:11
0 ответов

Как установить пакет hadoopy в python?

Я пытаюсь записать файл в HDFS через Python Script с приведенным ниже кодом. import hadoopy import os hdfs_path = 'data.json' def read_local_dir(local_path): for fn in os.listdir(local_path): path = os.path.join(local_path, fn) if os.path.isfile(pat…
08 сен '17 в 05:23
1 ответ

apache Hadoop-2.0.0 установка версии aplha в полном кластере с использованием fedration

Я успешно установил стабильную версию hadoop. но запутался при установке версии hadoop -2.0.0. Я хочу установить hadoop-2.0.0-alpha на два узла, используя федерацию на обеих машинах. RSI-1, RSI-2 являются имена хостов. какими должны быть значения ни…
1 ответ

Mapreduce сбои журнала Hadoop

Где я могу найти журнал, который содержит информацию о сбое рабочих мест mapreduce? Если что-то идет не так, я просто получаю сообщение об ошибке со статусом 1. Я использую Hadoop 2.4.1 и использую Hadoopy для заданий mapreduce.
17 авг '14 в 14:05
0 ответов

Как передать переменные в Mapper с помощью библиотеки Hadoopy Python?

При запуске задания MapReduce на Python на основе библиотеки Hadoopy, как передать переменные (в дополнение к паре ключ и значение) в маппер? Я не мог найти примеры или документы, разъясняющие это. Может ли кто-нибудь показать мне пример или указать…
23 июл '15 в 08:31
1 ответ

Установите hadoopy в Google Composer

Я использую google composer, Как мы можем установить Hadoopy в google composer environment, Эта страница содержит шаги для установки hadoopy на Linux Github Clone git clone https://github.com/bwhite/hadoopy.git cd hadoopy sudo python setup.py instal…
2 ответа

Ошибка компиляции Cython & Hadoopy... есть идеи по исправлению?

Я пытаюсь запустить Hadoopy, но получаю ошибку компиляции на OS X: ImportError: Building module failed: ["CompileError: command 'llvm-gcc-4.2' failed with exit status 1\n" я имею /Developer/usr/bin в моем $PATHи я использую последнюю версию XCode на…
22 сен '11 в 03:05
2 ответа

Как получить доступ и управлять данными PDF-файла в Hadoop?

Я хочу прочитать PDF-файл, используя hadoop, как это возможно? Я только знаю, что hadoop может обрабатывать только текстовые файлы, так что в любом случае есть возможность проанализировать PDF-файлы в текстовом формате. Дайте мне предложение.
1 ответ

Hadoopy не пройдет мимо Mkdir

В настоящее время я работаю над проектом, который использует hadoop (2.7.0). У меня настроен и работает кластер из двух узлов (по большей части). Я могу запускать задания картографа / редуктора вручную без каких-либо проблем. Но когда я пытаюсь нача…
18 май '15 в 15:05
2 ответа

Как сохранить файл в hadoop с python

Я пытаюсь сохранить файл в Hadoop с Python 2.7. Я искал в интернете. У меня есть некоторый код для сохранения файла в Hadoop, но он сохраняет всю папку при сохранении (общее количество файлов в папке сохраняется в Hadoop). Но мне нужно сохранить кон…
23 май '14 в 11:55
4 ответа

Узел данных не запущен

Я настроил настройку hadoop в своем боксе и работал с примерами программ, все прошло нормально и работало, все демоны также находятся в рабочем состоянии. На следующий день утром узел данных не работает.