Ошпаривание: исходная схема из работы с трубами

Я читаю файлы в HDFS через ошпаривание, агрегирование по некоторым полям и запись в файл с разделителями табуляции через TSV. Как я могу выписать файл, который содержит схему моего выходного файла? Например,

UnpackedAvroSource(args("input"))
  .project('key, 'var1)
  .groupBy('key){_.sum[Long]('var1 -> var1sum))}
  .write(Tsv(args("output")))

Я хочу написать выходной текстовый файл, который содержит "Key, var1sum", чтобы кто-нибудь, кто заберет мой файл вывода, позже узнал, что такое столбцы. Я предполагаю, что ошпаривание не встраивает это где-нибудь в файл?

Благодарю.

1 ответ

Решение

Только что нашел параметр writeHeader = true, который будет записывать имена столбцов в выходной файл, что исключает необходимость записи в файл.

Другие вопросы по тегам