Описание тега python-hdfs

Use this tag for questions related to the Python package named HDFS.
5 ответов

Какой самый лучший модуль для взаимодействия с HDFS с Python3?

Я вижу, что есть hdfs3, змеиный укус и некоторые другие. Какой из них лучше всего поддерживается и является всеобъемлющим?
27 окт '16 в 12:57
1 ответ

в python hdfs Есть ли способ использовать подстановочный знак или регулярное выражение в методе списка?

В linux hadoop fs -ls я могу использовать подстановочный знак (/sandbox/*), но метод списка клиентов pyhon hdfs не работает в этом случае как неизвестный путь. Есть ли другой способ использования подстановочных знаков в python-hdfs?
07 ноя '19 в 11:32
1 ответ

Подключитесь к HDFS с помощью keytab идентификатора службы с Python3.6

Я пытаюсь выполнить приведенный ниже фрагмент кода для подключения к hdfs и выполнить некоторые операции, связанные с файлами. Обратите внимание: я пытаюсь подключить экземпляр Cloudera HDFS из среды Centos7 с установленным в нем python3.6. import i…
30 июн '20 в 18:21
0 ответов

Измените владельца файла на root из пряжи, созданной приложением pyspark

Файл csv создается приложением Spark (yarn), которое развертывается в кластерном режиме. Я сохраняю файл в hdfs, используя следующий код. def run_commands(self, arg_list): proc = Popen(arg_list, stdin=PIPE, bufsize=-1) output, error = proc.communica…
08 июл '20 в 12:27
1 ответ

Как я могу получить ошибку подключения в pywebhfds?

У меня есть локально размещенный одноузловой пакет hadoop. мое имя и датанод совпадают. Я пытаюсь создать файл с помощью библиотеки Python. self.hdfs = PyWebHdfsClient(host='192.168.231.130', port='9870', user_name='kush', base_uri_pattern="htt…
03 авг '20 в 13:38
1 ответ

Как мне установить путь к libhdfs.so для pyarrow?

Я пытаюсь использовать pyarrow и получаю следующую ошибку. ImportError: Can not find the shared library: libhdfs3.so поэтому я прочитал некоторый stackru, и он говорит, что мне нужно установить переменную enviorment для ARROW_LIBHDFS_DIR.Путь к libh…
30 июл '20 в 15:17
0 ответов

Ошибка при помещении локального файла в HDFS с помощью pyhdfs (HTTPConnectionPool)

Я хочу использовать pyhdfsдля работы в моей системе hdfs. Я мог получить lstdir или же NameNode info обычно, но я не мог поместить локальный файл в систему, я получил такую ​​ошибку: ConnectionError: HTTPConnectionPool(host='ali', port=50075): превы…
0 ответов

Как подавить журналы INFO HdfsCLI?

Я использую HdfsCLI с Python. Конфигурация моего регистратора bsic следующая: logging.basicConfig(level=args.log_level, format=("%(asctime)s - %(threadName)s - %(levelname)s" " - [%(funcName)s():%(filename)s:%(lineno)s]" " - %(message)s")) Сразу пос…
23 июл '21 в 10:02
0 ответов

extact zip в hdfs

Мне нужно распаковать zip-архив в hdfs. def zip_to_hdfs(zip_arch, target_path): zf = zipfile.ZipFile(zip_arch) zf_list = zf.filelist hdfs_uri = 'http://localhost:50070' user = 'hive' client = InsecureClient(hdfs_uri, user) for item in zf_list: new_f…
07 дек '21 в 23:47
0 ответов

Запись содержимого JSON в местоположение HDFS с использованием Python

Я пытаюсь записать содержимое JSON в местоположение HDFS с помощью Python, но для каждого ключа и значения в моем содержимом JSON я вижу префикс u и ''. Исходное содержимое JSON { "id": 2344556, "resource_type": "user", "ext_uid": null, "email": " […
16 дек '20 в 00:00
0 ответов

удалить только файл, указанный в пути hdfs, а не весь путь hdfs

я пытаюсь удалить файл20221229_20230221-101756_Backtest_M.txtуказанный в пути hdfs: hdfs_path = '/dev/flux_entrant/depot/backtesting/' Для этого я использую: fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()) java_…
21 фев '23 в 10:59