Spark graphX: как загрузить большие данные для создания графика

Question

Spark graphX: как загрузить большие данные для создания графика

Я вижу много примеров использования массива для создания вершины, а затем распараллеливания его, чтобы сделать его RDD, но если у меня есть огромные данные, то как бы я справился с этим? Я не думаю, что смогу создать массив, скажем, 1 миллион строк вершин.

Есть еще один пост, Spark GraphX - Как я могу прочитать из файла JSON в Spark и создать график из данных?, также предложил использовать массив, поправьте меня, если я ошибаюсь, но опять же я не думаю, что это будет работать.

Заранее спасибо.

-1

apache-spark spark-graphx

Источник

user2112751 06 апр '16 в 20:04

1 ответ

Другие вопросы по тегам apache-spark spark-graphx

user753418 26 апр '16 в 16:59 2016-04-26 16:59 · Answer 1 · 2016-04-26 16:59

Если вы храните данные в файле, то вы можете непосредственно создать rdd поверх него:

val rdd : RDD[String] = sparkContext.textFile("/path/to/file")

и затем вы преобразуете его в VertexRDD или EdgeRDD.

1

Источник

user753418 26 апр '16 в 16:59