Как сохранить pyspark sql DataFrame в формате xml

Я сохранил pyspark sql dataframe в формате паркета. Теперь я хочу сохранить его также в формате xml. Как я могу это сделать? Решение для непосредственного сохранения pyspark sql dataframe в xml или конвертации паркета в xml что-нибудь будет работать для меня. Заранее спасибо.

2 ответа

Я не пробовал, но этот пакет может быть полезным. Блоки данных Spark-XML

Вот пример кода для Python:

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='book').load('books.xml')
df.select("author", "_id").write \
    .format('com.databricks.spark.xml') \
    .options(rowTag='book', rootTag='books') \
    .save('newbooks.xml')

Вы можете сопоставить каждую строку с строкой с разделителями XML, а затем сохранить как текстовый файл

Другие вопросы по тегам