Как подключиться к Pivotal HD (от Spark)?
Мне интересно узнать о способах подключения приложения Spark к Pivotal HD, реализации Hadoop.
Как лучше всего подключиться к нему с помощью Spark?
val jdbcDataFrame = sqlContext.read.format("jdbc").options(
Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()
1 ответ
Я вижу, что ваш вопрос был отредактирован, но я постараюсь ответить на все ваши вопросы.
Pivotal HD (Greenplum HD, как его называли) - это дистрибутив Hadoop, поэтому вы должны использовать его как любой дистрибутив Hadoop/HDFS. В частности:
text_file = spark.textFile("hdfs://...")
Или для выполнения заданий через YARN, см.:
http://spark.apache.org/docs/latest/running-on-yarn.html
Greenplum DB (распространяемый Postgres) не поддерживает Pivotal HD. Исключение составляют случаи, когда вы имеете в виду Pivotal HAWQ, который по сути является Greenplum DB поверх HDFS.
Greenplum была компанией, которая создала Greenplum DB и Greenplum HD, которые были приобретены EMC. Затем EMC сгруппировала несколько компаний в "Pivotal Initiative", которая переименовала Greenplum DB в "Pivotal Greenplum Database", а Greenplum HD в "Pivotal HD".