Как сбалансировать данные между Datanodes в Hadoop?

У меня есть многоузловой кластер в Hadoop, состоящий из двух машин (один узел имени и два узла данных в каждой машине).

Я использую:

hadoop fs -put dir1 hdfspath

В приведенной выше команде: данные будут распределены на обеих машинах или только на одной машине?

Какой способ балансировки: с помощью инструмента балансировки hadoop или для этого может быть автоматический способ?

1 ответ

Это будет зависеть от двух факторов:

  • Размер данных, которые вы храните
  • Размер блоков, определенный для ваших узлов данных.

Если размер хранимых данных превышает размер блока, данные будут разделены на размер блока и сохранены в разных узлах данных.

Другие вопросы по тегам