pydoop vs hadoopy - клиент python hadoop

В поисках клиента Python для Hadoop я обнаружил два модуля: pydoop и hadoopy. Кажется, что оба достаточно хороши для работы, но не уверены, какой из них имеет больше преимуществ, чем другой, чтобы установить один.

1 ответ

Решение

Наиболее полная документация по этому вопросу, я думаю, http://blog.cloudera.com/blog/2013/01/a-guide-to-python-frameworks-for-hadoop/

В последнее время я действительно думаю, что mrjob вышел в лидеры. У него очень активный список рассылки, и он кажется относительно стабильным и актуальным. Он также имеет приятную интеграцию с Amazon EMR.

Другие вопросы по тегам