Как записать данные в Google Cloud Bigtable в приложении PySpark на dataproc?

Question

Как записать данные в Google Cloud Bigtable в приложении PySpark на dataproc?

Я использую Spark в кластере Google Cloud Dataproc, и я хотел бы написать в Bigtable в работе PySpark. Поскольку коннектор Google для этого же недоступен, я просто использую клиент Bigtable Google Cloud для вставки данных и использую искру для параллелизма. Я не могу связать пакет google-cloud-python так, чтобы он был доступен в кластере dataproc. Я скачал колесо (whl) для google-cloud-bigtable и преобразовал его в яйцо. Все еще не работает.

Есть ли пример использования Google Python Clinet в работе Pyspark? Также было бы очень полезно узнать, как это можно сделать доступным на кластере.

4

apache-spark pyspark google-cloud-dataproc google-cloud-bigtable google-cloud-python

Источник

user932826 18 апр '18 в 12:40

0 ответов

Другие вопросы по тегам apache-spark pyspark google-cloud-dataproc google-cloud-bigtable google-cloud-python