hadoop - как бы сформировались входные разбиения, если файл имеет только одну запись, а размер файла больше размера блока?

пример для объяснения вопроса -

у меня есть файл размером 500 МБ (input.csv)

файл содержит только одну строку (запись)

так как файл будет храниться в блоках HDFS и как будут вычисляться входные разбиения?

1 ответ

Решение

Вам, вероятно, придется проверить эту ссылку: как записи процесса Hadoop распределяются по границам блоков? Обратите внимание на упомянутое "дистанционное чтение".

Одна запись, упомянутая в вашем вопросе, будет храниться во многих блоках. Но если вы используете TextInputFormat для чтения, преобразователь должен будет выполнить удаленное чтение по блокам для обработки записи.

Другие вопросы по тегам