Как создать сопоставление имен столбцов с образцом для классификации данных в Azure Purview?
Все, что я пытаюсь сделать, это просто классифицировать поле как «Дата рождения», если имя столбца содержит любое из следующего:
- Дата рождения
- Дата рождения
- Дата рождения
- YMDBIRTH
Я не большой пользователь RegEx, но обычно могу понять это с помощью нескольких гуглов. Я пробовал все следующее в правиле классификации пользовательских данных :
DateofBirth|BirthDate|DOB|YMDBIRTH
/DateofBirth/|/BirthDate/|/DOB/|/YMDBIRTH/
.*DateOfBirth.*|.*BirthDate.*|.*DOB.*|.*YMDBIRTH.*
/.*DateOfBirth.*|.*BirthDate.*|.*DOB.*|.*YMDBIRTH.*/i
Ни один из них не работал ... Я начинаю думать, что это как-то связано с моими сканированиями ... есть ли какое-то отставание?
Я даже просто использовал YMDBIRTH в правиле классификации, и он по-прежнему не классифицировал столбец после завершения сканирования.
Согласно этому документу Microsoft я думаю, что самый первый метод, который я здесь описал, должен был сработать " DateofBirth|BirthDate|DOB|YMDBIRTH "
В документе говорится:
При желании, если данные обычно находятся в столбце, имя которого им известно, например Employee_ID или EmployeeID, они могут добавить регулярное выражение шаблона столбца, чтобы сделать сканирование еще более точным. Пример регулярного выражения: Employee_ID | EmployeeID.
Итак, используя это, я думаю, должно работать:Скриншот правила классификации
2 ответа
Я не знал об этом, но в наборах правил сканирования, если вы создаете новое настраиваемое правило, которое, по вашему мнению, заменяет системное правило, и вы снимаете отметку с системного правила. Похоже, что правило сканирования не будет применять ваше настраиваемое правило ...
Для меня у меня было снято системное правило даты рождения, после его проверки (вместе с моим настраиваемым правилом) оно сработало и правильно классифицировало столбец
См. Снимок экрана: избранные правила классификации
Кроме того, мой первый метод классификации DateofBirth|BirthDate|DOB|YMDBIRTH был правильным и после этого работал нормально.
из-за соглашений об именах в наших базах данных нам пришлось проявить немного больше творчества, поскольку столбцы имели такие имена, как fs_address или address1, FP_address2, address_line3. Это то, что я использовал для сопоставления адресов, таких как имена столбцов, для полей, связанных с адресом
/\w*address\w*|\w*street\w*|\w*city\*w|\w*country\w*|\w*postal\w*|\w*prov\w*/i
\w соответствует любому символу слова (эквивалент [a-zA-Z0-9_])
* соответствует предыдущему токену от нуля до неограниченного количества раз. Это позволяет шаблону сопоставить PR_ADDRESS_line1 с / \w адресом \w
а / i в конце делает регистронезависимым
надеюсь, это поможет