Как сбалансировать данные между Datanodes в Hadoop?
У меня есть многоузловой кластер в Hadoop, состоящий из двух машин (один узел имени и два узла данных в каждой машине).
Я использую:
hadoop fs -put dir1 hdfspath
В приведенной выше команде: данные будут распределены на обеих машинах или только на одной машине?
Какой способ балансировки: с помощью инструмента балансировки hadoop или для этого может быть автоматический способ?
1 ответ
Это будет зависеть от двух факторов:
- Размер данных, которые вы храните
- Размер блоков, определенный для ваших узлов данных.
Если размер хранимых данных превышает размер блока, данные будут разделены на размер блока и сохранены в разных узлах данных.