Ошпаривание: исходная схема из работы с трубами
Я читаю файлы в HDFS через ошпаривание, агрегирование по некоторым полям и запись в файл с разделителями табуляции через TSV. Как я могу выписать файл, который содержит схему моего выходного файла? Например,
UnpackedAvroSource(args("input"))
.project('key, 'var1)
.groupBy('key){_.sum[Long]('var1 -> var1sum))}
.write(Tsv(args("output")))
Я хочу написать выходной текстовый файл, который содержит "Key, var1sum", чтобы кто-нибудь, кто заберет мой файл вывода, позже узнал, что такое столбцы. Я предполагаю, что ошпаривание не встраивает это где-нибудь в файл?
Благодарю.
1 ответ
Решение
Только что нашел параметр writeHeader = true, который будет записывать имена столбцов в выходной файл, что исключает необходимость записи в файл.