Сохранить RDD[Row] как файл в Scala
Я сделал данные RDD[Row] (myData) и попытался сохранить их как файл
myData.saveAsFile("path")
output
(a, 100, testcontenct)
(b, 200, stackru)
Это работает хорошо, но так как это будет рассматриваться как csv, мне нужно убрать символ '(' и ')'. Моя конечная цель -
a, 100, testcontenct
b, 200, stackru
Как мне сделать выходной файл без этих символов.
1 ответ
Решение
Вы можете использовать библиотеку CSV databricks: https://github.com/databricks/spark-csv
Я думаю, что это работает только на фреймах данных, но вы можете легко преобразовать свой RDD в фрейм данных с
import sqlContext.implicits._
val myDf = myData.toDF
затем записать его в файл с
myDf.write
.format("com.databricks.spark.csv")
.save("path")