Резервное копирование Data Lake Store

Я работаю над стратегией резервного копирования для Data Lake Store (DLS). Мой план заключается в создании двух учетных записей DLS и копировании данных между ними. Я оценил несколько подходов для достижения этой цели, но ни один из них не удовлетворяет требованию сохранения списков ACL POSIX (разрешения на языке DLS). Командлетам PowerShell требуется, чтобы данные загружались из первичного DLS на виртуальную машину и повторно загружались во вторичный DLS. Инструмент AdlCopy работает только в Windows 10, не сохраняет разрешений и не поддерживает копирование данных по регионам (не то, чтобы это было жестким требованием). Фабрика данных казалась самым разумным подходом, пока я не понял, что он также не сохраняет права доступа. Что приводит меня к моему последнему варианту - Distcp. Согласно руководству Distcp ( https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html), инструмент поддерживает сохранение разрешений. Однако недостатком использования Distcp является то, что инструмент должен запускаться из HDInsight. Хотя он поддерживает как внутреннее, так и межкластерное копирование, я бы предпочел не иметь работающий кластер HDInsight только для операций резервного копирования. Я что-то пропустил? У кого-нибудь есть предложения получше?

1 ответ

Решение

Ваша оценка является всеобъемлющей. Это действительно те опции, которые доступны, если вы хотите скопировать разрешения. Так что вам придется выбрать один из них, извините. Если вы действительно хотите использовать параметр без сервера, который бы копировал разрешения, то это должна быть фабрика данных Azure. Не могли бы вы создать элемент обратной связи здесь - https://feedback.azure.com/forums/270578-data-factory?

Спасибо, Сачин Шет, руководитель программы Azure Data Lake.

Другие вопросы по тегам