Как выполнить постепенную миграцию данных HDFS с помощью инструмента DistCp в Alibaba

Я пытаюсь перенести данные HDFS с помощью инструмента DistCp в Alibaba E-Mapreduce. Я понимаю, как сделать полную миграцию данных.

Команда:

hadoop distcp -pbugpcax -m 1000 -bandwidth 30 hdfs://clusterIP:8020 /user/hive/warehouse /user/hive/warehouse

Какие параметры мне нужно добавить для достижения пошаговой синхронизации в приведенном выше коде?

1 ответ

Решение

Для того, чтобы сделать дополнительную синхронизацию данных, вам нужно будет добавить -update а также -delete флаги, которые должны заботиться о синхронизации.

hadoop distcp -pbugpcax -m 1000 -bandwidth 30  -update –delete hdfs://oldclusterip:8020 /user/hive/warehouse /user/hive/warehouse

Немного больше информации по обоим параметрам:

-update, проверяет контрольную сумму и размер файла исходного и целевого файлов. Если сравниваемые размеры файлов отличаются, исходный файл обновляет данные целевого кластера. Если во время синхронизации старого и нового кластеров происходит запись данных, можно использовать -update для дополнительной синхронизации данных.

-deleteЕсли данные в старом кластере больше не существуют, данные в новом кластере будут удалены.

Надеюсь, это поможет!

Другие вопросы по тегам