Mosaic Decisions Узел записи BLOB-объектов Azure, создающий несколько файлов
Я использую функцию потока данных решений мозаики, чтобы прочитать файл из большого двоичного объекта Azure, выполнить несколько преобразований и записать эти данные обратно в Azure. Он работал нормально, за исключением того, что в указанном мной пути к выходному файлу была создана папка, и я могу видеть много файлов со странными "part-000" и т. Д. В их именах. Мне нужен единственный файл в этом месте вывода - немного. Это можно обойти?
1 ответ
Mosaic-Decisions использует apache spark в качестве внутреннего механизма выполнения. В Spark чтение фрейма данных разделяется на несколько разделов, и эти разделы записываются в место вывода параллельно. По этой причине он создает несколько файлов в целевом расположении с "part-0000", "part-0001" и т. Д. (Здесь часть представляет раздел).
Чтобы решить эту проблему, необходимо проверить "объединить выходные файлы в один" в узле записи. Это объединит все файлы деталей в один большой файл. Но используйте это с осторожностью и только в том случае, если вам действительно нужен один файл - так как это приведет к снижению производительности.