Сокол против Вандиско нон-стоп
Вариант использования: мне нужно скопировать все мои данные из кластера HDFS в другой кластер с тем же набором мастеров и подчиненных, и я освобожу предыдущий кластер и запускаю свои задания в новом кластере.
Я читал об Apache Falcon и Wandisco, которые помогают в этом зеркалировании. Но я не уверен в других преимуществах, которые они предлагают, когда я использую их как часть моей эко-системы (что будет более выгодно? - Это будет зависеть от моего варианта использования, но я хочу знать, есть ли какие-то конкретно). Можно ли привести аналогию "Сокол против Вандиско" в зависимости от вашего опыта работы с ними?
1 ответ
(Отказ от ответственности: я работаю в WANdisco.)
Я считаю, что продукты дополняют друг друга. Falcon делает много вещей помимо передачи данных, например, настраивает этапы обработки данных. Продукты WANdisco выполняют активно-активную репликацию данных (что означает, что данные могут использоваться одинаково как из исходного, так и из целевого кластеров).
В вашем случае, если вы используете Falcon, то вы фактически используете DistCP для копирования данных в ваш новый кластер. Вы можете выполнить начальную передачу, чтобы получить большую часть данных, а затем в какой-то момент вам нужно выполнить окончательную смену, чтобы собрать все дельты, и затем вы можете позволить приложениям запускаться на новом кластере.
Если вы выполняли передачу данных с продуктами WANdisco, вы можете использовать оба кластера одновременно, поскольку механизм репликации координирует изменения с использованием алгоритма Paxos. Это может облегчить постепенную миграцию.
Другие сценарии, в которых вы заметите разницу между непрерывной активно-активной репликацией по сравнению с DistCP, - это такие вещи, как резервное копирование и аварийное восстановление, а также загрузка в несколько центров обработки данных. Надеюсь, это поможет.