Как сохранить Spark Dataframe в таблице Hana Vora?

Question

Как сохранить Spark Dataframe в таблице Hana Vora?

У нас есть файл, который мы хотим разделить на 3, и нам необходимо выполнить некоторую очистку данных, прежде чем их можно будет импортировать в Hana Vora - в противном случае все должно быть напечатано как String, что не является идеальным.

Мы можем отлично импортировать и подготавливать DataFrames в spark, но затем, когда я пытаюсь записать в файловую систему HDFS или, что лучше, сохранить в виде таблицы в источнике данных com.sap.spark.vora, я получаю ошибки.

Кто-нибудь может посоветовать надежный способ импорта подготовленных искрой наборов данных в Hana Vora? Спасибо!

0

apache-spark spark-dataframe hana vora

Источник

user5495112 17 окт '16 в 04:26

1 ответ

Другие вопросы по тегам apache-spark spark-dataframe hana vora

user5547975 25 окт '16 в 20:58 2016-10-25 20:58 · Answer 1 · 2016-10-25 20:58

В настоящее время Vora официально поддерживает только добавление данных в существующую таблицу (с помощью оператора APPEND). Подробности см. В Руководстве разработчика по SAP HANA Vora -> Глава "3.5. Добавление данных в существующие таблицы"

Это означает, что вам придется создать промежуточный файл. Vora поддерживает чтение из файлов CSV, ORC, Parquet. Кадр данных можно сохранить в файлах ORC и Parquet непосредственно из Spark (см. https://spark.apache.org/docs/1.6.1/sql-programming-guide.htm). Для записи в CSV-файлы из Spark см. https://github.com/databricks/spark-csv