hadoop - как бы сформировались входные разбиения, если файл имеет только одну запись, а размер файла больше размера блока?

Question

hadoop - как бы сформировались входные разбиения, если файл имеет только одну запись, а размер файла больше размера блока?

пример для объяснения вопроса -

у меня есть файл размером 500 МБ (input.csv)

файл содержит только одну строку (запись)

так как файл будет храниться в блоках HDFS и как будут вычисляться входные разбиения?

0

hadoop mapreduce hdfs input-split

Источник

user5585424 02 мар '16 в 04:28

1 ответ

Решение

Другие вопросы по тегам hadoop mapreduce hdfs input-split

user4728385 02 мар '16 в 13:37 2016-03-02 13:37 · Accepted Answer · 2016-03-02 13:37

Вам, вероятно, придется проверить эту ссылку: как записи процесса Hadoop распределяются по границам блоков? Обратите внимание на упомянутое "дистанционное чтение".

Одна запись, упомянутая в вашем вопросе, будет храниться во многих блоках. Но если вы используете TextInputFormat для чтения, преобразователь должен будет выполнить удаленное чтение по блокам для обработки записи.