Как ускорить distcp при передаче данных из Hadoop в Google Cloud Storage
Облако Google предоставляет соединители для работы с Hadoop. ( https://cloud.google.com/hadoop/google-cloud-storage-connector)
Используя коннектор, я получаю данные из hdfs в облачное хранилище Google
ех)
hadoop discp hdfs://${path} gs://${path}
но данные слишком велики (16 ТБ) и скорость приема составляет всего 2 МБ / с
Итак, я пытаюсь изменить настройку distcp (свойство map, свойство bandwith...)
Однако скорость такая же.
Как ускорить distcp при передаче данных из HDFS в Google Cloud Storage
1 ответ
Официальная документация гласит, что одним из лучших вариантов передачи данных из локальных кластеров в GCP является использование VPN-туннеля через Интернет или даже использование нескольких VPN-туннелей для дополнительной пропускной способности.
Другие предлагаемые варианты - использование прямого пиринга между пограничными точками присутствия Google ( PoP) и вашей сетью или установление прямого подключения к сети Google с помощью поставщика услуг Cloud Interconnect.