Azure Purview - сканирование типов файлов

Мы сканируем озеро данных Azure (поколение 2). В результатах сканирования мы получаем некоторые файлы, которые мы не хотим отображать в реестре ресурсов - например, файл конфигурации (.wmk), как показано ниже. Есть ли способ скрыть все файлы определенного типа? Я просмотрел правила сканирования, чтобы узнать, будет ли работать настраиваемое правило, а тип файла (.wmk) не указан в качестве объекта сканирования, однако он отображается в реестре ресурсов.

То же самое применимо к папкам озера данных, мы хотели бы видеть только наборы ресурсов, а не папки в активах.

Есть ли способ уберечь их от показа в активах?

1 ответ

Решение

Перед сканированием вы можете охватить сканирование определенными папками или подпапками, выбрав соответствующие элементы в списке. После регистрации и сканирования источника данных карта данных извлекает информацию о структуре (иерархическом пространстве имен) источника данных. Эта информация используется для создания возможностей просмотра для обнаружения данных.

Примечание:

  • Все будущие активы под определенным родителем будут автоматически выбраны, если родительский элемент полностью или частично отмечен.
  • После успешного сканирования может пройти задержка перед тем, как новые отсканированные ресурсы появятся в интерфейсе просмотра. Эта задержка может занять до нескольких часов.

При поиске активов в каталоге можно использовать операторы для составления поискового запроса.

В частности, вы можете использовать логические операторы НЕ заглавными буквами, чтобы указать, что ресурс не может содержать в качестве ключевого слова справа от предложения, или использовать подстановочный знак '*', который соответствует от одного до многих символов, чтобы ваш запрос не возвращал активы, в которых есть свойства с расширением (.wmk).

      Example: Expense NOT wmk NOT *.wmk

(Операторы можно комбинировать столько раз, сколько необходимо в одном запросе.)

Понятие наборов ресурсов:

  • Набор ресурсов - это отдельный объект в каталоге, который представляет большое количество ресурсов в хранилище.
  • Чтобы решить проблему сопоставления большого количества активов данных с одним логическим ресурсом, Azure Purview использует наборы ресурсов.
  • Azure Purview автоматически обнаруживает наборы ресурсов при сканировании. Эта функция просматривает все данные, полученные при сканировании, и сравнивает их с набором определенных шаблонов . Затем он переключается с полного сканирования на сканирование образца.
  • В образце сканирования он открывает только часть файлов, которые, по его мнению, находятся в наборе ресурсов . Для каждого открываемого файла он использует свою схему и запускает свои классификаторы.
  • Затем Azure Purview находит самый новый ресурс среди открытых ресурсов и использует схему и классификации этого ресурса в записи для всего набора ресурсов в каталоге. Хранит совокупную информацию о ресурсах раздела, составляющих набор ресурсов.

Чтобы настроить или переопределить способ определения Azure Purview, какие активы сгруппированы как наборы ресурсов и как они отображаются в каталоге, вы можете определить шаблонные правила в центре управления.

Создайте правила шаблона набора ресурсов:

  1. Перейти в центр управления. Выберите «Правила шаблона» в меню под заголовком «Наборы ресурсов». Выберите + Создать, чтобы создать новый набор правил.

  1. Введите область действия правила шаблона набора ресурсов. (Путь к папке)
  2. Обновите поля соответствующим образом, в основном в вашем случае: Полное имя и Не группировать как набор ресурсов.

Примечание. После создания шаблонного правила все новые сканирования будут применять правило во время приема. Существующие активы в каталоге данных будут обновлены в фоновом режиме, который может занять до нескольких часов.

E Xample: не группируют .wmk файлы в набор ресурсов с

Входные файлы:

      https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk

Правило шаблона

      Scope: https://myazureblob.blob.core.windows.net/bar/

Display name: Expense-{{Fileid}}

Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk

Resource Set: false

Вывод отдельных активов

      Asset 1

Display name: Expense-7

Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls

Кроме того, если вы считаете, что это бесполезно, вы можете поделиться своим отзывом, чтобы команда разработчиков могла изучить эту идею. ✌

Другие вопросы по тегам