Инкрементальная нагрузка Sqoop с использованием Informatica BDM

Question

Инкрементальная нагрузка Sqoop с использованием Informatica BDM

Я новичок в Informatica BDM. У меня есть сценарий использования, в котором я должен импортировать данные постепенно (100 таблиц) из RDBMS в Hive ежедневно. Может кто-нибудь, пожалуйста, направить меня с наилучшим подходом для достижения этой цели?

Спасибо, Сумит

0

sqoop informatica informatica-powerexchange

Источник

user8945262 20 дек '18 в 03:39

2 ответа

Другие вопросы по тегам sqoop informatica informatica-powerexchange

user10685298 22 дек '18 в 13:29 2018-12-22 13:29 · Answer 1 · 2018-12-22 13:29

Hadoop - это подход "чтение-запись-много-много раз" (WORM), а добавочная загрузка - непростая задача. Ниже приведены рекомендации, которые вы можете выполнить и подтвердить свои текущие требования.

Если таблица небольшого / среднего размера и не имеет слишком много записей, лучше обновить всю таблицу
Если таблица слишком большая и при добавочной загрузке выполняется операция добавления / обновления / удаления, вы можете подумать о том, чтобы подготовить дельту и выполнить операцию соединения, чтобы заново создать набор данных.
Для большой таблицы и большой дельты можно создать номер версии для всех последних записей, и каждая дельта может прийти в новый каталог, и необходимо создать представление, чтобы получить последнюю версию для дальнейшей обработки. Это позволяет избежать тяжелой операции слияния.

Если операция удаления не является изменением, вам также нужно подумать, как с ней работать, и в этом случае вам необходимо получить полное обновление.

Ayush 12 май '23 в 07:40 2023-05-12 07:40 · Answer 2 · 2023-05-12 07:40

Вы можете использовать динамические сопоставления для своего варианта использования, где имя таблицы можно параметризовать. Это поможет вам принять данные в улей с помощью одного сопоставления, а метаданные исходной таблицы будут получены во время выполнения.

0

Источник

Ayush 12 май '23 в 07:40