Разъем HDFS-GPFS для использования в Apache Spark

Есть ли возможность читать данные из IBM GPFS (Global Parallel Filesystem) в Apache Spark?

Мое намерение состоит в том, чтобы использовать что-то вроде этого

sc.textFile("gfps://...")

вместо

sc.textFile("hdfs://...")

Средой, которая предназначена для использования, является платформа данных Hortonworks. Я прочитал несколько статей о развертывании файловой системы IBM Spectrum Scale, в которой говорится, что вы можете сконфигурировать на HDP соединитель с GPFS, который даст вам возможность чтения / записи в GPFS (возможно, то, что MAPR-FS имеет для своей файловой системы), Кто-нибудь делал это?

Спасибо

1 ответ

@dumitru Вы можете использовать библиотеку Sparkling.data.

Более подробная информация - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/

Другие вопросы по тегам