Разъем HDFS-GPFS для использования в Apache Spark
Есть ли возможность читать данные из IBM GPFS (Global Parallel Filesystem) в Apache Spark?
Мое намерение состоит в том, чтобы использовать что-то вроде этого
sc.textFile("gfps://...")
вместо
sc.textFile("hdfs://...")
Средой, которая предназначена для использования, является платформа данных Hortonworks. Я прочитал несколько статей о развертывании файловой системы IBM Spectrum Scale, в которой говорится, что вы можете сконфигурировать на HDP соединитель с GPFS, который даст вам возможность чтения / записи в GPFS (возможно, то, что MAPR-FS имеет для своей файловой системы), Кто-нибудь делал это?
Спасибо
1 ответ
@dumitru Вы можете использовать библиотеку Sparkling.data.
Более подробная информация - http://datascience.ibm.com/blog/making-data-useful-with-the-sparkling-data-library-2/