Описание тега httpfs

HttpFS - это сервер, который предоставляет шлюз REST HTTP, поддерживающий все операции файловой системы HDFS (чтение и запись). И он совместим с HTTP API REST webhdfs.

HttpFS - это сервер, который предоставляет шлюз REST HTTP, поддерживающий все операции файловой системы HDFS (чтение и запись). И он совместим с HTTP API REST webhdfs.

HttpFS можно использовать для передачи данных между кластерами, на которых работают разные версии Hadoop (преодоление проблем управления версиями RPC), например, с помощью Hadoop DistCP.

HttpFS можно использовать для доступа к данным в HDFS в кластере за брандмауэром (сервер HttpFS действует как шлюз и является единственной системой, которой разрешено проходить через брандмауэр в кластер).

HttpFS можно использовать для доступа к данным в HDFS с помощью утилит HTTP (таких как curl и wget) и HTTP-библиотек Perl с других языков, кроме Java.

Реализацию FileSytem клиента webhdfs можно использовать для доступа к HttpFS с помощью линейного инструмента команды файловой системы Hadoop (hadoop fs), а также из приложений Java с использованием API-интерфейса Hadoop FileSystem Java.

HttpFS имеет встроенную систему безопасности, поддерживающую псевдо-аутентификацию Hadoop, HTTP SPNEGO Kerberos и другие подключаемые механизмы аутентификации. Он также обеспечивает поддержку пользователей прокси-сервера Hadoop.

Официальный веб-сайт: https://hadoop.apache.org/docs/r2.4.1/hadoop-hdfs-httpfs/