Соединяющий пиарроу с libhdfs3

Я пытаюсь подключиться к кластеру hadoop через пиарроу HdfsClient / hdfs.connect(),

Я заметил пиарроу have_libhdfs3() функция, которая возвращает False.

Как получить необходимую поддержку hdfs для pyarrow? Я понимаю, что есть команда conda для libhdfs3, но мне нужно, чтобы она работала каким-то "ванильным" способом, который не включает такие вещи, как conda.

Если это важно, то файлы, которые я заинтересован в чтении, - это паркетные файлы.

РЕДАКТИРОВАТЬ:

Создатели hdfs3 Библиотека сделала репозиторий, позволяющий установить libhdfs3:

http://hdfs3.readthedocs.io/en/latest/install.html

2 ответа

Решение

На Ubuntu это работало для меня -

echo "deb https://dl.bintray.com/wangzw/deb trusty contrib" | sudo tee /etc/apt/sources.list.d/bintray-wangzw-deb.list
sudo apt-get install -y apt-transport-https
sudo apt-get update
sudo apt-get install libhdfs3 libhdfs3-dev

Он должен работать и на других дистрибутивах Linux, используя соответствующий установщик. Взято из:

http://hdfs3.readthedocs.io/en/latest/install.html

Я не знаю, как получить libhdfs3, кроме как через conda-forge или сборку из исходного кода. Вам нужно будет conda install libhdfs3=2.2.31 поскольку произошли серьезные изменения в API, из-за которых libhdfs3 отличался от ABI библиотек libhdfs, о которых мы еще не говорили в Arrow. Смотрите https://issues.apache.org/jira/browse/ARROW-1445 (исправления приветствуются)

Другие вопросы по тегам