Соединяющий пиарроу с libhdfs3
Я пытаюсь подключиться к кластеру hadoop через пиарроу HdfsClient
/ hdfs.connect()
,
Я заметил пиарроу have_libhdfs3()
функция, которая возвращает False.
Как получить необходимую поддержку hdfs для pyarrow? Я понимаю, что есть команда conda для libhdfs3, но мне нужно, чтобы она работала каким-то "ванильным" способом, который не включает такие вещи, как conda.
Если это важно, то файлы, которые я заинтересован в чтении, - это паркетные файлы.
РЕДАКТИРОВАТЬ:
Создатели hdfs3
Библиотека сделала репозиторий, позволяющий установить libhdfs3:
2 ответа
На Ubuntu это работало для меня -
echo "deb https://dl.bintray.com/wangzw/deb trusty contrib" | sudo tee /etc/apt/sources.list.d/bintray-wangzw-deb.list
sudo apt-get install -y apt-transport-https
sudo apt-get update
sudo apt-get install libhdfs3 libhdfs3-dev
Он должен работать и на других дистрибутивах Linux, используя соответствующий установщик. Взято из:
Я не знаю, как получить libhdfs3, кроме как через conda-forge или сборку из исходного кода. Вам нужно будет conda install libhdfs3=2.2.31
поскольку произошли серьезные изменения в API, из-за которых libhdfs3 отличался от ABI библиотек libhdfs, о которых мы еще не говорили в Arrow. Смотрите https://issues.apache.org/jira/browse/ARROW-1445 (исправления приветствуются)