Может ли GCP Dataproc передавать данные (или запускать другие задания) из локальной БД?
Может ли GCP Dataproc sqoop импортировать данные из локальной БД для помещения в GCP Storage (без GCP VPC)?
У нас есть удаленная БД Oracle, подключенная к нашей локальной сети через VPN-туннель, и мы используем кластер Hadoop для извлечения данных из каждого дня через Apache Sqoop. Хотел бы заменить этот процесс кластером GCP Dataproc для запуска заданий sqoop и GCP Storage. Нашел эту статью, которая, похоже, делает что-то похожее на перемещение данных с помощью Apache Sqoop в Google Cloud Dataproc, но предполагает, что пользователи имеют GCP VPC (который я не собирался покупать).
Итак, мой вопрос:
- Без этого соединения VPC может ли кластер облачных данных знать, как получать данные из БД в нашей локальной сети, используя API представления заданий?
- Как это будет работать, если это так (возможно, я недостаточно понимаю, как рабочие места Hadoop работают / получают данные)?
- Как-нибудь иначе, если нет?
2 ответа
Без использования VPC/VPN вы не сможете предоставить Dataproc доступ к вашей локальной БД.
Вместо использования VPC вы можете использовать VPN, если он лучше соответствует вашим потребностям: https://cloud.google.com/vpn/docs/
Единственный другой вариант, который у вас есть, - это открыть вашу локальную базу данных в Интернете, чтобы Dataproc мог получить к ней доступ без VPC/VPN, но это по своей сути небезопасно.
В этом случае может работать локальная установка коннектора GCS. Для этого не потребуется VPC/VPN.