Разъем HDFS-GPFS для использования в Apache Spark

Question

Разъем HDFS-GPFS для использования в Apache Spark

Есть ли возможность читать данные из IBM GPFS (Global Parallel Filesystem) в Apache Spark?

Мое намерение состоит в том, чтобы использовать что-то вроде этого

sc.textFile("gfps://...")

вместо

sc.textFile("hdfs://...")

Средой, которая предназначена для использования, является платформа данных Hortonworks. Я прочитал несколько статей о развертывании файловой системы IBM Spectrum Scale, в которой говорится, что вы можете сконфигурировать на HDP соединитель с GPFS, который даст вам возможность чтения / записи в GPFS (возможно, то, что MAPR-FS имеет для своей файловой системы), Кто-нибудь делал это?

Спасибо

1

apache-spark hdfs hortonworks-data-platform biginsights

Источник

user1171590 20 окт '17 в 12:59

1 ответ

Другие вопросы по тегам apache-spark hdfs hortonworks-data-platform biginsights

user3294904 06 ноя '17 в 18:04 2017-11-06 18:04 · Answer 1 · 2017-11-06 18:04

@dumitru Вы можете использовать библиотеку Sparkling.data.

Более подробная информация - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/

0

Источник

user3294904 06 ноя '17 в 18:04