Apache Nifi - потребляйте Kafka + объединяйте контент + ставьте HDFS, чтобы избежать мелких файлов

У меня около 2000000 сообщений в теме Кафки, и я хочу поместить эти записи в HDFS, используя NiFi, поэтому я использую PutHDFS процессор для этого вместе с ConsumeKafka_0_10 но он генерирует небольшие файлы в HDFS, поэтому я использую процессор слияния контента для объединения записей перед отправкой файла. введите описание изображения здесь Пожалуйста, помогите, если конфигурация нуждается в изменениях. Это прекрасно работает для небольшого количества сообщений, но записывает один файл для каждой записи, когда речь идет о темах с большими объемами данных.

Спасибо!!

1 ответ

Решение

Минимальное количество записей установлено равным 1, что означает, что оно может иметь значение от 1 до максимального количества записей. Попробуйте сделать что-то выше, например, 100 КБ.

Другие вопросы по тегам