Как сохранить Spark Dataframe в таблице Hana Vora?
У нас есть файл, который мы хотим разделить на 3, и нам необходимо выполнить некоторую очистку данных, прежде чем их можно будет импортировать в Hana Vora - в противном случае все должно быть напечатано как String, что не является идеальным.
Мы можем отлично импортировать и подготавливать DataFrames в spark, но затем, когда я пытаюсь записать в файловую систему HDFS или, что лучше, сохранить в виде таблицы в источнике данных com.sap.spark.vora, я получаю ошибки.
Кто-нибудь может посоветовать надежный способ импорта подготовленных искрой наборов данных в Hana Vora? Спасибо!
1 ответ
В настоящее время Vora официально поддерживает только добавление данных в существующую таблицу (с помощью оператора APPEND). Подробности см. В Руководстве разработчика по SAP HANA Vora -> Глава "3.5. Добавление данных в существующие таблицы"
Это означает, что вам придется создать промежуточный файл. Vora поддерживает чтение из файлов CSV, ORC, Parquet. Кадр данных можно сохранить в файлах ORC и Parquet непосредственно из Spark (см. https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm). Для записи в CSV-файлы из Spark см. https://github.com/databricks/spark-csv