Вывод файла CSV разделяется с помощью плагина Google Cloud Storage Sink
Я использовал Google Cloud Storage Plugin в категории Sink в конвейере, чтобы получить вывод в формате CSV. После выполнения конвейера полученный результат поступает в несколько файлов после разделения. Это правильное поведение этого плагина? если это так, то есть ли способ получить консолидированный вывод в одном файле?
Отредактировано: похоже, это правильное поведение плагина, упомянутое в https://cloud.google.com/storage/docs/composite-objects. шардинг сделан для поддержки параллельных загрузок. но теперь мой вопрос: есть ли простой способ создать все эти разделенные файлы?
1 ответ
Ожидается, что в выходном каталоге будет найдено несколько файлов, так как Cloud Data Fusion использует Spark/MapReduce, чтобы распараллелить выполнение логики конвейера.
При объединении выходных файлов обратно в один, есть ли у вас какие-либо требования к оформлению заказа?