Почему чанки разделяются, хотя размер файла не 64 МБ?
Я загружал данные из твиттера, используя flume в hdfs. Хотя у меня есть данные больше чем 2 ГБ, мои фрагменты файла чанка меньше чем 64 МБ. т.е. 1-й файл с 300 КБ,2-й файл - 566 КБ. Почему это происходит?
1 ответ
Это из-за вашей конфигурации лотка.
прочитайте это, вам нужно будет установить hdfs.rollInterval или hdfs.rollSize