hadoop - как бы сформировались входные разбиения, если файл имеет только одну запись, а размер файла больше размера блока?
пример для объяснения вопроса -
у меня есть файл размером 500 МБ (input.csv)
файл содержит только одну строку (запись)
так как файл будет храниться в блоках HDFS и как будут вычисляться входные разбиения?
1 ответ
Решение
Вам, вероятно, придется проверить эту ссылку: как записи процесса Hadoop распределяются по границам блоков? Обратите внимание на упомянутое "дистанционное чтение".
Одна запись, упомянутая в вашем вопросе, будет храниться во многих блоках. Но если вы используете TextInputFormat для чтения, преобразователь должен будет выполнить удаленное чтение по блокам для обработки записи.