Подключение к Mongo с набором реплик и разъемом mongo-hadoop для Spark
У меня есть процесс Spark, который в настоящее время использует мост mongo-hadoop (из https://github.com/mongodb/mongo-hadoop/blob/master/spark/src/main/python/README.rst) для доступа к Монго база данных:
mongo_url = 'mongodb://localhost:27017/db_name.collection_name'
mongo_rdd = spark_context.mongoRDD(mongo_url)
Экземпляр mongo теперь обновляется до кластера, доступ к которому возможен только с набором реплик.
Как мне создать RDD, используя разъем mongo-hadoop? MongoRDD() переходит к mongoPairRDD(), который не может принимать несколько строк.
1 ответ
MongoDB Hadoop Connector mongoRDD
может принимать допустимую строку подключения MongoDB.
Например, если теперь это набор реплик, вы можете указать:
mongodb://db1.example.net,db2.example.net:27002,db3.example.net:27003/?db_name&replicaSet=YourReplicaSetName
Смотрите также связанную информацию: