Как сохранить pyspark sql DataFrame в формате xml
Я сохранил pyspark sql dataframe в формате паркета. Теперь я хочу сохранить его также в формате xml. Как я могу это сделать? Решение для непосредственного сохранения pyspark sql dataframe в xml или конвертации паркета в xml что-нибудь будет работать для меня. Заранее спасибо.
2 ответа
Я не пробовал, но этот пакет может быть полезным. Блоки данных Spark-XML
Вот пример кода для Python:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='book').load('books.xml')
df.select("author", "_id").write \
.format('com.databricks.spark.xml') \
.options(rowTag='book', rootTag='books') \
.save('newbooks.xml')
Вы можете сопоставить каждую строку с строкой с разделителями XML, а затем сохранить как текстовый файл