Дистанционно соединяя apache spark с apache hive.

Question

Дистанционно соединяя apache spark с apache hive.

Я могу загрузить данные с сервера улья в том же кластере, где установлена апач-спарк. Но как я могу загрузить данные в dataframe с удаленного сервера улья. Разъем hive jdbc - единственный вариант для этого?

Любое предложение, как я могу это сделать?

3

apache-spark jdbc apache-spark-sql hive

Источник

user3313379 15 окт '15 в 08:34

1 ответ

Решение

Другие вопросы по тегам apache-spark jdbc apache-spark-sql hive

user1038171 15 окт '15 в 09:59 2015-10-15 09:59 · Accepted Answer · 2015-10-15 09:59

Ты можешь использовать org.apache.spark.sql.hive.HiveContext выполнить SQL-запрос по таблицам Hive.

В качестве альтернативы вы можете подключить искру к базовому каталогу HDFS, где данные действительно хранятся. Это будет более производительным, так как SQL-запрос не требует анализа или схема применяется к файлам.

Если кластер является внешним, вам нужно установитьhive.metastore.uris