Вычисление входных разбиений в MapReduce
Файл хранится в HDFS размером 260 МБ, тогда как размер блока HDFS по умолчанию составляет 64 МБ. Выполнив работу по уменьшению карты для этого файла, я обнаружил, что количество входных разбиений, которые он создает, составляет всего 4. как рассчитал.? где остальные 4 мб.? Любой вклад очень ценится.
1 ответ
Разделение входных данных НЕ всегда является размером блока. Разделение ввода - это логическое представление данных. Ваш входной сплит мог быть 63mb, 67mb, 65mb, 65mb (или, возможно, других размеров, основанных на размерах логических записей)... см. Примеры в ссылках ниже...