В чем разница между записью и загрузкой WebHDFS?

Я сохранил 1 миллион данных csv в Hadoop, используя webHDFS. В этот раз я пробовал два метода, но была большая разница во времени. Первый из них используетclient.writeметод и занимает около 51 секунды. Второй использовалclient.uploadметод, и это заняло около 14 секунд. В чем причина этой разницы?

      import pandas as pd
from hdfs import InsecureClient

df = pd.read_csv("some_path")
client = InsecureClinet("some_url")

# fist 
with client.write(hdfs_path, encoding='utf-8') as f:
    df.to_csv(f, index=False)

# seconde
df.to_csv(local_path, encoding='utf-8', index=False)
hc.upload(hdfs_path, local_path)

0 ответов

Другие вопросы по тегам