Как создать сопоставление имен столбцов с образцом для классификации данных в Azure Purview?

Все, что я пытаюсь сделать, это просто классифицировать поле как «Дата рождения», если имя столбца содержит любое из следующего:

  • Дата рождения
  • Дата рождения
  • Дата рождения
  • YMDBIRTH

Я не большой пользователь RegEx, но обычно могу понять это с помощью нескольких гуглов. Я пробовал все следующее в правиле классификации пользовательских данных :

DateofBirth|BirthDate|DOB|YMDBIRTH

/DateofBirth/|/BirthDate/|/DOB/|/YMDBIRTH/

.*DateOfBirth.*|.*BirthDate.*|.*DOB.*|.*YMDBIRTH.*

/.*DateOfBirth.*|.*BirthDate.*|.*DOB.*|.*YMDBIRTH.*/i

Ни один из них не работал ... Я начинаю думать, что это как-то связано с моими сканированиями ... есть ли какое-то отставание?

Я даже просто использовал YMDBIRTH в правиле классификации, и он по-прежнему не классифицировал столбец после завершения сканирования.

Согласно этому документу Microsoft я думаю, что самый первый метод, который я здесь описал, должен был сработать " DateofBirth|BirthDate|DOB|YMDBIRTH "

https://docs.microsoft.com/en-us/azure/purview/create-a-custom-classification-and-classification-rule

В документе говорится:

При желании, если данные обычно находятся в столбце, имя которого им известно, например Employee_ID или EmployeeID, они могут добавить регулярное выражение шаблона столбца, чтобы сделать сканирование еще более точным. Пример регулярного выражения: Employee_ID | EmployeeID.

Итак, используя это, я думаю, должно работать:Скриншот правила классификации

2 ответа

Решение

Я не знал об этом, но в наборах правил сканирования, если вы создаете новое настраиваемое правило, которое, по вашему мнению, заменяет системное правило, и вы снимаете отметку с системного правила. Похоже, что правило сканирования не будет применять ваше настраиваемое правило ...

Для меня у меня было снято системное правило даты рождения, после его проверки (вместе с моим настраиваемым правилом) оно сработало и правильно классифицировало столбец

См. Снимок экрана: избранные правила классификации

Кроме того, мой первый метод классификации DateofBirth|BirthDate|DOB|YMDBIRTH был правильным и после этого работал нормально.

из-за соглашений об именах в наших базах данных нам пришлось проявить немного больше творчества, поскольку столбцы имели такие имена, как fs_address или address1, FP_address2, address_line3. Это то, что я использовал для сопоставления адресов, таких как имена столбцов, для полей, связанных с адресом

/\w*address\w*|\w*street\w*|\w*city\*w|\w*country\w*|\w*postal\w*|\w*prov\w*/i

\w соответствует любому символу слова (эквивалент [a-zA-Z0-9_])

* соответствует предыдущему токену от нуля до неограниченного количества раз. Это позволяет шаблону сопоставить PR_ADDRESS_line1 с / \w адресом \w

а / i в конце делает регистронезависимым

надеюсь, это поможет

Другие вопросы по тегам