Как выполнить постепенную миграцию данных HDFS с помощью инструмента DistCp в Alibaba
Я пытаюсь перенести данные HDFS с помощью инструмента DistCp в Alibaba E-Mapreduce. Я понимаю, как сделать полную миграцию данных.
Команда:
hadoop distcp -pbugpcax -m 1000 -bandwidth 30 hdfs://clusterIP:8020 /user/hive/warehouse /user/hive/warehouse
Какие параметры мне нужно добавить для достижения пошаговой синхронизации в приведенном выше коде?
1 ответ
Для того, чтобы сделать дополнительную синхронизацию данных, вам нужно будет добавить -update
а также -delete
флаги, которые должны заботиться о синхронизации.
hadoop distcp -pbugpcax -m 1000 -bandwidth 30 -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse
Немного больше информации по обоим параметрам:
-update
, проверяет контрольную сумму и размер файла исходного и целевого файлов. Если сравниваемые размеры файлов отличаются, исходный файл обновляет данные целевого кластера. Если во время синхронизации старого и нового кластеров происходит запись данных, можно использовать -update для дополнительной синхронизации данных.
-delete
Если данные в старом кластере больше не существуют, данные в новом кластере будут удалены.
Надеюсь, это поможет!