Как получить доступ к файлам в файловой системе hadoop, находящейся на другом сервере, чем на моем локальном компьютере?

У меня есть локальная машина (local_user@local_machine). И файловая система hadoop присутствует на другом сервере (some_user@another_server). Один из пользователей на сервере hadoop назван target_user, Как получить доступ к файлам, присутствующим в target_user от local_user@local_machine? Точнее сказать, есть файл /user/target_user/test.txt присутствует в HDFS на some_user@another_server, Какой правильный путь к файлу я должен использовать при доступе /user/target_user/test.txt от local_user@local_machine?

Я могу получить доступ к файлу в самом hdfs с hdfs dfs -cat /user/target_user/test.txt, Но я не могу получить доступ к файлу с моего локального компьютера с помощью сценария Python, который я написал для чтения и записи из HDFS (который принимает 3 аргумента - путь к локальному файлу, путь к удаленному файлу и чтение или запись), скорее всего потому, что я Я не даю правильный путь.

Я пробовал следующее, но ни один из них не работает:

$ #local_user@local_machine

$ python3 rw_hdfs.py ./to_local_test.txt /user/target_user/test.txt read

$ python3 rw_hdfs.py ./to_local_test.txt some_user@another_server/user/target_user/test.txt read

Все дают ту же ошибку:

Traceback (most recent call last):
  File "/usr/lib/python3/dist-packages/urllib3/connectionpool.py", line 377, in _make_request
    httplib_response = conn.getresponse(buffering=True)
TypeError: getresponse() got an unexpected keyword argument 'buffering'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/lib/python3/dist-packages/urllib3/connectionpool.py", line 560, in urlopen
    body=body, headers=headers)
  File "/usr/lib/python3/dist-packages/urllib3/connectionpool.py", line 379, in _make_request
    httplib_response = conn.getresponse()
  File "/usr/lib/python3.5/http/client.py", line 1197, in getresponse
    response.begin()
  File "/usr/lib/python3.5/http/client.py", line 297, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python3.5/http/client.py", line 279, in _read_status
    raise BadStatusLine(line)
http.client.BadStatusLine: 


During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/lib/python3/dist-packages/requests/adapters.py", line 376, in send
    timeout=timeout
  File "/usr/lib/python3/dist-packages/urllib3/connectionpool.py", line 610, in urlopen
    _stacktrace=sys.exc_info()[2])
  File "/usr/lib/python3/dist-packages/urllib3/util/retry.py", line 247, in increment
    raise six.reraise(type(error), error, _stacktrace)
  File "/usr/lib/python3/dist-packages/six.py", line 685, in reraise
    raise value.with_traceback(tb)
  File "/usr/lib/python3/dist-packages/urllib3/connectionpool.py", line 560, in urlopen
    body=body, headers=headers)
  File "/usr/lib/python3/dist-packages/urllib3/connectionpool.py", line 379, in _make_request
    httplib_response = conn.getresponse()
  File "/usr/lib/python3.5/http/client.py", line 1197, in getresponse
    response.begin()
  File "/usr/lib/python3.5/http/client.py", line 297, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python3.5/http/client.py", line 279, in _read_status
    raise BadStatusLine(line)
requests.packages.urllib3.exceptions.ProtocolError: ('Connection aborted.', BadStatusLine('\x15\x03\x03\x00\x02\x02\n',))

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "python_hdfs.py", line 63, in <module>
    status, name, nnaddress= check_node_status(node)
  File "python_hdfs.py", line 18, in check_node_status
    request = requests.get("%s/jmx?qry=Hadoop:service=NameNode,name=NameNodeStatus"%name,verify=False).json()
  File "/usr/lib/python3/dist-packages/requests/api.py", line 67, in get
    return request('get', url, params=params, **kwargs)
  File "/usr/lib/python3/dist-packages/requests/api.py", line 53, in request
    return session.request(method=method, url=url, **kwargs)
  File "/usr/lib/python3/dist-packages/requests/sessions.py", line 468, in request
    resp = self.send(prep, **send_kwargs)
  File "/usr/lib/python3/dist-packages/requests/sessions.py", line 576, in send
    r = adapter.send(request, **kwargs)
  File "/usr/lib/python3/dist-packages/requests/adapters.py", line 426, in send
    raise ConnectionError(err, request=request)
requests.exceptions.ConnectionError: ('Connection aborted.', BadStatusLine('\x15\x03\x03\x00\x02\x02\n',))

1 ответ

Точнее, скажем, есть файл /user/target_user/test.txt, присутствующий в HDFS на some_user@another_server

Во-первых, HDFS - это не один каталог на одном компьютере. Поэтому пытаться получить к нему доступ не имеет смысла.

Во-вторых, любая библиотека Python, которую вы используете, пытается взаимодействовать через WebHDFS, которую вы должны специально включить для кластера.

https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/WebHDFS.html

BadStatusLine в ошибке может указывать, что вы имеете дело с Kerberized, безопасный кластер, поэтому вам может потребоваться другой способ чтения файлов

Например, PySpark или проект Ibis

Другие вопросы по тегам