Как использовать таблицу перекрестных ссылок в базе данных, смоделированной с использованием принципов Data Vault?

У меня есть Персона Спутник с атрибутом Пол. В исходных системах значения этого атрибута могут быть: F, M, FEMALE или MALE. Какой из двух следующих подходов является правильным для моделирования Data Vault?

  1. Храните данные в Gender, как они поступают из источников, а в Business Vault или Data Marts стандартизируют значения только для FEMALE и MALE.

  2. Создайте таблицу перекрестных ссылок, чтобы отобразить F в FEMALE и M в MALE, одновременно загружая Person Satellite, преобразуйте F в FEMALE и M в MALE, используя таблицу перекрестных ссылок.

Я использую Amazon Redshift, который поддерживает сжатие столбцов.

2 ответа

Решение

Я написал Даниэлю Линстедту, создателю метода моделирования Data Vault, чтобы задать ему тот же вопрос. Его ответ:

"Обычно я храню его по мере поступления, затем перевожу на пути к Business DV. Таким образом, если бизнес когда-либо передумает, мы можем переписать правило перевода, не затрагивая историю. Но более того, я Мы видели исходные системы, которые предоставляют значения, выходящие за границы приемлемого. Не пытайтесь переводить на пути к Raw DV, так как это может нарушить возможности аудита ".

Концепция хранилища данных полезна, когда у вас очень сложная бизнес-логика, которая со временем меняется, но сопоставление F/Female и M/Male - довольно простая и стабильная логика. Наличие перекрестной ссылки будет просто усложнять вещи здесь. Я бы просто стандартизировал значения F/M и использовал бы столбец char(1) без сжатия.

Другие вопросы по тегам