pydoop vs hadoopy - клиент python hadoop
В поисках клиента Python для Hadoop я обнаружил два модуля: pydoop и hadoopy. Кажется, что оба достаточно хороши для работы, но не уверены, какой из них имеет больше преимуществ, чем другой, чтобы установить один.
1 ответ
Решение
Наиболее полная документация по этому вопросу, я думаю, http://blog.cloudera.com/blog/2013/01/a-guide-to-python-frameworks-for-hadoop/
В последнее время я действительно думаю, что mrjob вышел в лидеры. У него очень активный список рассылки, и он кажется относительно стабильным и актуальным. Он также имеет приятную интеграцию с Amazon EMR.