Как использовать библиотеку Python hdfscli?
У меня есть следующий вариант использования,
я хотел подключить удаленный кластер hadoop. Итак, я получил все файлы конфигурации hadoop (coresite.xml, hdfs-site.xml и другие) и сохранил их в одном каталоге в локальной файловой системе. Я получил правильный keytab и файл krb5.conf для аутентификации Kerberos. Я установил hadoop и поместил файлы untar в какой-то каталог, скажем
/User/xyz/hadoop
. Я установил следующие переменные env:
JAVA_HOME(), HADOOP_HOME, HADOOP_CONF_DIR
и, наконец, поместил мой файл krb5.conf в
/etc/
. Эта настройка помогла мне успешно пройти аутентификацию с помощью
kinit -kt <keytab> <principal user>
и выполнять команды hadoop, например
hadoop fs -ls /
с моего локального терминала и получить доступ к кластеру.
Однако я хотел выполнить то же действие, не загружая файл hadoop. Есть способ? Я использую python и наткнулся на эту библиотеку python hdfs . Однако мне было трудно понять и работать с этой библиотекой.
- Возможно ли то, чего я пытаюсь достичь?
- Если да, то каков правильный путь?
- Может ли кто-нибудь помочь мне настроить hdfscli lib с правильной конфигурацией?