Целевой реплики 10, но найдено 3 реплики

Как я могу это исправить?

/tmp/hadoop-yarn/staging/ubuntu/.staging/job_1450038005671_0025/job.jar: Under replicated BP-938294433-10.0.1.190-1450037861153:blk_1073744219_3398. Target Replicas is 10 but found 3 replica(s).

Я получаю это, когда я бегу hadoop fsck / в моем мастер-узле. Я полагаю, я должен изменить .xml файл в conf или что-то подобное, я просто не знаю, какой файл изменить.

Обратите внимание, что dfs.replication в hdfs-site.xml уже установлено на 3. У меня нет dfs.replication.max в моем hdfs-site.xml файл.

3 ответа

Решение

Счетчик репликации для файлов, представленных как часть вашей работы (банок и т. Д.), Контролируется параметром mapreduce.client.submit.file.replication (или же mapred.submit.replication в до 2.4 кластеров) в mapred-site.xml. Вы можете уменьшить это значение для кластеров, которые меньше 10 узлов, или просто игнорировать сообщение от fsck.

FWIW, для этого есть JIRA, но я сомневаюсь, что это когда-нибудь получится.

Вы можете игнорировать. /tmp/hadoop-yarn/staging/ubuntu/.staging/job_1450038005671_0025/job.jar, это ресурс задания. dfs.replication не влияет на рабочие ресурсы.

  1. Ресурсы заданий, такие как файлы JAR, файлы, переданные с использованием -files (распределенный кеш), будут скопированы в HDFS с использованием 10 в качестве фактора репликации
  2. Когда задание выполняется, эти ресурсы задания (код) будут скопированы в контейнер / задание для обработки данных.
  3. После завершения задания на основе пороговых значений эти ресурсы будут автоматически перерабатываться.

Эта функция помогает реализовать локальность данных (где код переходит к данным) при обработке данных.

Файл конфигурации HDFS hdfs-site.xml должен содержать dfs.replication свойство, которое описывает коэффициент репликации блока:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>3</value>
  </property>
</configuration>

По умолчанию hdfs-site.xml расположение /etc/hadoop/hdfs-site.xml

Другие вопросы по тегам