Spark graphX: как загрузить большие данные для создания графика

Я вижу много примеров использования массива для создания вершины, а затем распараллеливания его, чтобы сделать его RDD, но если у меня есть огромные данные, то как бы я справился с этим? Я не думаю, что смогу создать массив, скажем, 1 миллион строк вершин.

Есть еще один пост, Spark GraphX ​​- Как я могу прочитать из файла JSON в Spark и создать график из данных?, также предложил использовать массив, поправьте меня, если я ошибаюсь, но опять же я не думаю, что это будет работать.

Заранее спасибо.

1 ответ

Если вы храните данные в файле, то вы можете непосредственно создать rdd поверх него:

val rdd : RDD[String] = sparkContext.textFile("/path/to/file")

и затем вы преобразуете его в VertexRDD или EdgeRDD.

Другие вопросы по тегам