В чем разница между записью и загрузкой WebHDFS?
Я сохранил 1 миллион данных csv в Hadoop, используя webHDFS. В этот раз я пробовал два метода, но была большая разница во времени. Первый из них используетclient.write
метод и занимает около 51 секунды. Второй использовалclient.upload
метод, и это заняло около 14 секунд. В чем причина этой разницы?
import pandas as pd
from hdfs import InsecureClient
df = pd.read_csv("some_path")
client = InsecureClinet("some_url")
# fist
with client.write(hdfs_path, encoding='utf-8') as f:
df.to_csv(f, index=False)
# seconde
df.to_csv(local_path, encoding='utf-8', index=False)
hc.upload(hdfs_path, local_path)