Azure Purview - сканирование типов файлов
Мы сканируем озеро данных Azure (поколение 2). В результатах сканирования мы получаем некоторые файлы, которые мы не хотим отображать в реестре ресурсов - например, файл конфигурации (.wmk), как показано ниже. Есть ли способ скрыть все файлы определенного типа? Я просмотрел правила сканирования, чтобы узнать, будет ли работать настраиваемое правило, а тип файла (.wmk) не указан в качестве объекта сканирования, однако он отображается в реестре ресурсов.
То же самое применимо к папкам озера данных, мы хотели бы видеть только наборы ресурсов, а не папки в активах.
Есть ли способ уберечь их от показа в активах?
1 ответ
Перед сканированием вы можете охватить сканирование определенными папками или подпапками, выбрав соответствующие элементы в списке. После регистрации и сканирования источника данных карта данных извлекает информацию о структуре (иерархическом пространстве имен) источника данных. Эта информация используется для создания возможностей просмотра для обнаружения данных.
Примечание:
- Все будущие активы под определенным родителем будут автоматически выбраны, если родительский элемент полностью или частично отмечен.
- После успешного сканирования может пройти задержка перед тем, как новые отсканированные ресурсы появятся в интерфейсе просмотра. Эта задержка может занять до нескольких часов.
При поиске активов в каталоге можно использовать операторы для составления поискового запроса.
В частности, вы можете использовать логические операторы НЕ заглавными буквами, чтобы указать, что ресурс не может содержать в качестве ключевого слова справа от предложения, или использовать подстановочный знак '*', который соответствует от одного до многих символов, чтобы ваш запрос не возвращал активы, в которых есть свойства с расширением (.wmk).
Example: Expense NOT wmk NOT *.wmk
(Операторы можно комбинировать столько раз, сколько необходимо в одном запросе.)
Понятие наборов ресурсов:
- Набор ресурсов - это отдельный объект в каталоге, который представляет большое количество ресурсов в хранилище.
- Чтобы решить проблему сопоставления большого количества активов данных с одним логическим ресурсом, Azure Purview использует наборы ресурсов.
- Azure Purview автоматически обнаруживает наборы ресурсов при сканировании. Эта функция просматривает все данные, полученные при сканировании, и сравнивает их с набором определенных шаблонов . Затем он переключается с полного сканирования на сканирование образца.
- В образце сканирования он открывает только часть файлов, которые, по его мнению, находятся в наборе ресурсов . Для каждого открываемого файла он использует свою схему и запускает свои классификаторы.
- Затем Azure Purview находит самый новый ресурс среди открытых ресурсов и использует схему и классификации этого ресурса в записи для всего набора ресурсов в каталоге. Хранит совокупную информацию о ресурсах раздела, составляющих набор ресурсов.
Чтобы настроить или переопределить способ определения Azure Purview, какие активы сгруппированы как наборы ресурсов и как они отображаются в каталоге, вы можете определить шаблонные правила в центре управления.
Создайте правила шаблона набора ресурсов:
- Перейти в центр управления. Выберите «Правила шаблона» в меню под заголовком «Наборы ресурсов». Выберите + Создать, чтобы создать новый набор правил.
- Введите область действия правила шаблона набора ресурсов. (Путь к папке)
- Обновите поля соответствующим образом, в основном в вашем случае: Полное имя и Не группировать как набор ресурсов.
Примечание. После создания шаблонного правила все новые сканирования будут применять правило во время приема. Существующие активы в каталоге данных будут обновлены в фоновом режиме, который может занять до нескольких часов.
E Xample: не группируют .wmk файлы в набор ресурсов с
Входные файлы:
https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk
Правило шаблона
Scope: https://myazureblob.blob.core.windows.net/bar/
Display name: Expense-{{Fileid}}
Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk
Resource Set: false
Вывод отдельных активов
Asset 1
Display name: Expense-7
Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
Кроме того, если вы считаете, что это бесполезно, вы можете поделиться своим отзывом, чтобы команда разработчиков могла изучить эту идею. ✌