Откат данных DataStage при сбое одного из параллельных заданий
В настоящее время я создаю задание, которое включает несколько параллельных заданий. Каждое параллельное задание загружает данные в базу данных. Если в середине произойдет сбой, параллельные задания до этого уже будут вставлены в базу данных. Есть ли способы откатить все данные параллельных заданий, если они не получаются на полпути? Спасибо.
1 ответ
Нет, это не концепция с точки зрения DataStage или ETL.
Некоторые мысли по этому поводу:
- Отмена всего этого может привести к тому, что вам придется заново все это повторить, и все время, потраченное на свертывание данных, будет потеряно, и, кроме того, вы потратите много времени на их удаление.
- Если что-то не получается, концепция начинается с более менее точного этапа и повторяется попытка ввода данных. Это поддерживается в последовательностях DataStage путем установки контрольных точек и перезапускаемых последовательностей.
- Поскольку массы данных, которые вы обычно обрабатываете с помощью инструментов ETL и концепции конвейера Datastages, есть очень ограниченные возможности для общей обработки транзакций заданий. Обычно он ограничен частью "Загрузка", где вы можете зафиксировать после, например, 2000 строк (чтобы не вызывать проблем с журналом в БД)