Описание тега pyhdfs-client

Use this tag for questions relevant to HDFS client, written in Python.
1 ответ

Как сохранить входящий файл в api бутылки в hdfs

Я определяю bottle API, где мне нужно принять файл от клиента, а затем сохранить этот файл в HDFS в локальной системе. Код выглядит примерно так. @route('/upload', method='POST') def do_upload(): import pdb; pdb.set_trace() upload = request.files.up…
08 сен '17 в 21:34
2 ответа

ConnectionError(MaxRetryError("HTTPConnectionPool Максимальное количество повторных попыток превышено с использованием pywebhdfs

Привет, я использую pywebhdfs python lib. Я подключаю EMR, позвонив и пытаясь создать файл на HDFS. Я получаю исключение ниже указанного уровня, которое кажется неуместным в отношении того, что я выполняю, поскольку здесь я не нарушаю никаких ограни…
04 мар '16 в 09:58
1 ответ

Pyhdfs copy_from_local, вызывающий имя узла или имя сервера, или неизвестная ошибка

Я использую следующий код Python для загрузки файла на удаленную HDFS из моей локальной системы, используя pyhdfs from pyhdfs import HdfsClient client = HdfsClient(hosts='1.1.1.1',user_name='root') client.mkdirs('/jarvis') client.copy_from_local('/m…
14 дек '17 в 11:44
3 ответа

Удалить кортеж и создать новый отсортированный список

У меня есть RDD, который я создал, используя PySpark, и его размеры около 600 ГБ после соединения по значению ключа, которое выглядит именно так. [('43.72_-70.08', (('0744632', -70.08, 43.72, '2.4'), '18090865')), ('43.72_-70.08', (('0744632', -70.0…
0 ответов

Python HDFS: невозможно проанализировать документ json

Я следую простой кусок кода из документации http://hdfscli.readthedocs.org/en/latest/quickstart.html with client.read(path, encoding='utf-8') as reader: print reader from json import load model = load(reader) путь действителен. я получил <request…
04 фев '16 в 19:41
0 ответов

Читайте файлы.wav из hdfs на python, аналогичном librosa.load

У меня есть аудио файл.wav в HDFS. Если этот файл хранится в локальной файловой системе, я могу прочитать его, используя библиотеку librosa с librosa.load. Но я не могу использовать ту же функцию, если файл находится в HDFS. Я попытался с помощью би…
06 дек '17 в 13:22
1 ответ

Как импортировать "HdfsClient" в Python 3?

Я новичок в Python и пытаюсь подключиться к системе Hadoop HDFS. Я получил следующий ссылочный код, который я пытался реализовать, но он показывал ошибку при импорте пакета. from pyarrow import HdfsClient # Using libhdfs hdfs = HdfsClient('192.168.0…
03 апр '19 в 07:01
0 ответов

Проблема с подключением Apache Arrow к HDFS (удаленная файловая система)

Я хочу подключить pyarrow для чтения и записи файла паркета в формате hdfs. Но у меня возникла проблема с подключением Я установил pyarrow и python pandas и теперь пытаюсь подключиться с помощью hdfs на удаленной машине. Ссылочная ссылка - https://t…
20 май '19 в 09:43
0 ответов

Spark: распараллеливание URL-адресов hdfs с учетом локализации данных

У меня есть список URL-адресов zip-файлов HDFS, и я хочу открыть каждый файл внутри функции карты RDD вместо использования функции binaryFiles. Изначально я пробовал, как показано ниже: def unzip(hdfs_url): # read the hdfs file using hdfs python cli…
07 ноя '19 в 01:27
1 ответ

Как я могу получить ошибку подключения в pywebhfds?

У меня есть локально размещенный одноузловой пакет hadoop. мое имя и датанод совпадают. Я пытаюсь создать файл с помощью библиотеки Python. self.hdfs = PyWebHdfsClient(host='192.168.231.130', port='9870', user_name='kush', base_uri_pattern="htt…
03 авг '20 в 13:38
0 ответов

HdfsIllegalArgumentException: java.net.UnknownHostException: null с Pyhadoop

Я пытаюсь создать текстовый файл на Hadoop Hdf с помощью Pyhdhs "Создать", но получаю сообщение об ошибке HdfsIllegalArgumentException: java.net.UnknownHostException: null . Я включил webhdfs и изменил файл etc/hosts, добавив 192.168.173 quickstart …
10 сен '19 в 15:22
0 ответов

Ошибка при помещении локального файла в HDFS с помощью pyhdfs (HTTPConnectionPool)

Я хочу использовать pyhdfsдля работы в моей системе hdfs. Я мог получить lstdir или же NameNode info обычно, но я не мог поместить локальный файл в систему, я получил такую ​​ошибку: ConnectionError: HTTPConnectionPool(host='ali', port=50075): превы…
0 ответов

Как использовать библиотеку Python hdfscli?

У меня есть следующий вариант использования, я хотел подключить удаленный кластер hadoop. Итак, я получил все файлы конфигурации hadoop (coresite.xml, hdfs-site.xml и другие) и сохранил их в одном каталоге в локальной файловой системе. Я получил пра…
10 фев '21 в 03:52
0 ответов

Как имитировать запросы HDFS, сделанные клиентом pyhdfs для модульного тестирования?

У меня есть класс, который использует клиент pyhdfs для отправки запросов в кластер HDFS. Я хочу поиздеваться над вызовами этого класса, чтобы проверить, отправляются ли в HDFS правильные запросы. Есть ли простой способ сделать это, например, с помо…
1 ответ

Может ли pyhdfs сделать «мягкое» удаление?

Я использую from pyhdfs import HdfsClient fs = HdfsClient(hosts=..., user_name='hdfs', ..) fs.delete(path_table, recursive=True) Однако после того, как я удалил каталог, я не смог найти его в каталоге корзины, расположенном в /user/hdfs/.Trash/Curre…
10 мар '22 в 07:44
0 ответов

Загрузите удаленные файлы HDFS на мой локальный Mac

Мне нужно загрузить файлы из файловой системы HDFS на мой локальный компьютер Mac: import os import pyhdfs os.environ["http_proxy"] = "http://host:port" os.environ["https_proxy"] = "http://host:port" os.environ["no_proxy"] = "host_x,host_y,host_x,ma…
13 авг '22 в 16:05
0 ответов

В чем разница между записью и загрузкой WebHDFS?

Я сохранил 1 миллион данных csv в Hadoop, используя webHDFS. В этот раз я пробовал два метода, но была большая разница во времени. Первый из них используетclient.writeметод и занимает около 51 секунды. Второй использовалclient.uploadметод, и это зан…
25 июн '22 в 06:09
0 ответов

Запись на hdfs с поддержкой Kerberos с помощью python | Превышено максимальное количество попыток с URL-адресом

Я пытаюсь использовать python для записи в безопасные hdfs, используя следующую ссылку lib Часть аутентификации: def init_kinit(): kinit_args = ['/usr/bin/kinit', '-kt', '/tmp/xx.keytab', 'kerberos_principle'] subp = Popen(kinit_args, stdin=PIPE, st…
16 авг '22 в 13:28
0 ответов

как я могу подключить проект Django к HDFS?

Я хочу подключить свой проект Django к HDFS к данным хранилища. Я хочу подключить свой проект Django к HDFS к данным хранилища, как мне это сделать?
0 ответов

Указан IP-адрес hdfs в pyhdfs.HdfsClient, но он показывает мое имя хоста

Именно так: hdfs_client = HdfsClient(hosts='10.1.103.49:50070') root_files = hdfs_client.listdir('/') print(root_files) hdfs_client.copy_from_local('./Readme.md', '/image/Readme.md') он может успешно печатать root_files, но copy_from_local не может …
27 ноя '23 в 13:00