Как ускорить distcp при передаче данных из Hadoop в Google Cloud Storage

Облако Google предоставляет соединители для работы с Hadoop. ( https://cloud.google.com/hadoop/google-cloud-storage-connector)

Используя коннектор, я получаю данные из hdfs в облачное хранилище Google

ех)

hadoop discp hdfs://${path} gs://${path}

но данные слишком велики (16 ТБ) и скорость приема составляет всего 2 МБ / с

Итак, я пытаюсь изменить настройку distcp (свойство map, свойство bandwith...)

Однако скорость такая же.

Как ускорить distcp при передаче данных из HDFS в Google Cloud Storage

1 ответ

Решение

Официальная документация гласит, что одним из лучших вариантов передачи данных из локальных кластеров в GCP является использование VPN-туннеля через Интернет или даже использование нескольких VPN-туннелей для дополнительной пропускной способности.

Другие предлагаемые варианты - использование прямого пиринга между пограничными точками присутствия Google ( PoP) и вашей сетью или установление прямого подключения к сети Google с помощью поставщика услуг Cloud Interconnect.

Другие вопросы по тегам