Дистанционно соединяя apache spark с apache hive.

Я могу загрузить данные с сервера улья в том же кластере, где установлена ​​апач-спарк. Но как я могу загрузить данные в dataframe с удаленного сервера улья. Разъем hive jdbc - единственный вариант для этого?

Любое предложение, как я могу это сделать?

1 ответ

Решение

Ты можешь использовать org.apache.spark.sql.hive.HiveContext выполнить SQL-запрос по таблицам Hive.

В качестве альтернативы вы можете подключить искру к базовому каталогу HDFS, где данные действительно хранятся. Это будет более производительным, так как SQL-запрос не требует анализа или схема применяется к файлам.

Если кластер является внешним, вам нужно установитьhive.metastore.uris

Другие вопросы по тегам