Как подключиться к Pivotal HD (от Spark)?

Мне интересно узнать о способах подключения приложения Spark к Pivotal HD, реализации Hadoop.

Как лучше всего подключиться к нему с помощью Spark?

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()

1 ответ

Решение

Я вижу, что ваш вопрос был отредактирован, но я постараюсь ответить на все ваши вопросы.

Pivotal HD (Greenplum HD, как его называли) - это дистрибутив Hadoop, поэтому вы должны использовать его как любой дистрибутив Hadoop/HDFS. В частности:

text_file = spark.textFile("hdfs://...")

Или для выполнения заданий через YARN, см.:

http://spark.apache.org/docs/latest/running-on-yarn.html

Greenplum DB (распространяемый Postgres) не поддерживает Pivotal HD. Исключение составляют случаи, когда вы имеете в виду Pivotal HAWQ, который по сути является Greenplum DB поверх HDFS.

Greenplum была компанией, которая создала Greenplum DB и Greenplum HD, которые были приобретены EMC. Затем EMC сгруппировала несколько компаний в "Pivotal Initiative", которая переименовала Greenplum DB в "Pivotal Greenplum Database", а Greenplum HD в "Pivotal HD".

Другие вопросы по тегам