Spark graphX: как загрузить большие данные для создания графика
Я вижу много примеров использования массива для создания вершины, а затем распараллеливания его, чтобы сделать его RDD, но если у меня есть огромные данные, то как бы я справился с этим? Я не думаю, что смогу создать массив, скажем, 1 миллион строк вершин.
Есть еще один пост, Spark GraphX - Как я могу прочитать из файла JSON в Spark и создать график из данных?, также предложил использовать массив, поправьте меня, если я ошибаюсь, но опять же я не думаю, что это будет работать.
Заранее спасибо.
1 ответ
Если вы храните данные в файле, то вы можете непосредственно создать rdd поверх него:
val rdd : RDD[String] = sparkContext.textFile("/path/to/file")
и затем вы преобразуете его в VertexRDD или EdgeRDD.