Может ли GCP Dataproc передавать данные (или запускать другие задания) из локальной БД?

Может ли GCP Dataproc sqoop импортировать данные из локальной БД для помещения в GCP Storage (без GCP VPC)?

У нас есть удаленная БД Oracle, подключенная к нашей локальной сети через VPN-туннель, и мы используем кластер Hadoop для извлечения данных из каждого дня через Apache Sqoop. Хотел бы заменить этот процесс кластером GCP Dataproc для запуска заданий sqoop и GCP Storage. Нашел эту статью, которая, похоже, делает что-то похожее на перемещение данных с помощью Apache Sqoop в Google Cloud Dataproc, но предполагает, что пользователи имеют GCP VPC (который я не собирался покупать).

Итак, мой вопрос:

  • Без этого соединения VPC может ли кластер облачных данных знать, как получать данные из БД в нашей локальной сети, используя API представления заданий?
  • Как это будет работать, если это так (возможно, я недостаточно понимаю, как рабочие места Hadoop работают / получают данные)?
  • Как-нибудь иначе, если нет?

2 ответа

Решение

Без использования VPC/VPN вы не сможете предоставить Dataproc доступ к вашей локальной БД.

Вместо использования VPC вы можете использовать VPN, если он лучше соответствует вашим потребностям: https://cloud.google.com/vpn/docs/

Единственный другой вариант, который у вас есть, - это открыть вашу локальную базу данных в Интернете, чтобы Dataproc мог получить к ней доступ без VPC/VPN, но это по своей сути небезопасно.

В этом случае может работать локальная установка коннектора GCS. Для этого не потребуется VPC/VPN.

Другие вопросы по тегам