Вычисление входных разбиений в MapReduce

Файл хранится в HDFS размером 260 МБ, тогда как размер блока HDFS по умолчанию составляет 64 МБ. Выполнив работу по уменьшению карты для этого файла, я обнаружил, что количество входных разбиений, которые он создает, составляет всего 4. как рассчитал.? где остальные 4 мб.? Любой вклад очень ценится.

1 ответ

Разделение входных данных НЕ всегда является размером блока. Разделение ввода - это логическое представление данных. Ваш входной сплит мог быть 63mb, 67mb, 65mb, 65mb (или, возможно, других размеров, основанных на размерах логических записей)... см. Примеры в ссылках ниже...

Размер разделения входных данных Hadoop и размер блока

Другой пример - см. Раздел 3.3...

Другие вопросы по тегам