Как создать RDD-объект на данных кассандры с помощью pyspark

Я использую cassandra 2.0.3, и я хотел бы использовать pyspark (Apache Spark Python API) для создания объекта RDD из данных cassandra.

ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ: я не хочу делать импорт CQL, а затем запрос CQL из pyspark API, скорее я хотел бы создать RDD, на котором я хотел бы сделать некоторые преобразования.

Я знаю, что это можно сделать в Scala, но я не могу выяснить, как это можно сделать из pyspark.

Очень признателен, если кто-нибудь может мне помочь в этом.

2 ответа

Может быть, больше не имеет к вам отношения, но я искал то же самое и не мог найти ничего, чем был бы доволен. Поэтому я поработал над этим: https://github.com/TargetHolding/pyspark-cassandra. Перед использованием на производстве необходимо провести много испытаний, но я думаю, что интеграция работает довольно хорошо.

Я не уверен, что вы уже посмотрели этот пример: https://github.com/apache/spark/blob/master/examples/src/main/python/cassandra_inputformat.py я прочитал из Кассандры с использованием аналогичного pattersn

Другие вопросы по тегам