Дистанционно соединяя apache spark с apache hive.
Я могу загрузить данные с сервера улья в том же кластере, где установлена апач-спарк. Но как я могу загрузить данные в dataframe с удаленного сервера улья. Разъем hive jdbc - единственный вариант для этого?
Любое предложение, как я могу это сделать?
1 ответ
Решение
Ты можешь использовать org.apache.spark.sql.hive.HiveContext
выполнить SQL-запрос по таблицам Hive.
В качестве альтернативы вы можете подключить искру к базовому каталогу HDFS, где данные действительно хранятся. Это будет более производительным, так как SQL-запрос не требует анализа или схема применяется к файлам.
Если кластер является внешним, вам нужно установитьhive.metastore.uris