Отказоустойчивость в Apache Sqoop
Я хочу запускать инкрементную ночную работу, которая извлекает 100 ГБ данных из Oracle DataWarehouse в HDFS. После обработки результаты (несколько ГБ) необходимо экспортировать обратно в Oracle.
Мы запускаем Hadoop в Amazon AWS, и наше хранилище данных находится в помещении. Канал передачи данных между AWS и локальной сетью составляет 100 Мбит / с и не надежен.
Если я использую Sqoop-import для получения данных из Oracle, а сеть испытывает периодические сбои, как Sqoop справится с этим? Кроме того, что произойдет, если я импортировал (или экспортировал) 70% своих данных, а в течение оставшихся 30% сеть отключилась?
Поскольку по умолчанию Sqoop использует JDBC, как происходит передача данных на сетевом уровне? Можем ли мы сжать данные в пути?