Google Cloud Data Prevention (DLP) сканирует файлы.parquet в GCS
Я новичок в Google Cloud DLP и запустил POST https://dlp.googleapis.com/v2beta1/inspect/operations для сканирования .parquet
файл в каталоге Google Cloud Storage, а также с помощью cloudStorageOptions
чтобы сохранить .csv
выход.
.parquet
файл 53,93 м.
Когда я делаю вызов API на .parquet
файл, который я получаю:
"processedBytes": "102308122",
"infoTypeStats": [{
"infoType": {
"name": "AMERICAN_BANKERS_CUSIP_ID"
},
"count": "1"
}, {
"infoType": {
"name": "IP_ADDRESS"
},
"count": "17"
}, {
"infoType": {
"name": "US_TOLLFREE_PHONE_NUMBER"
},
"count": "148"
}, {
"infoType": {
"name": "EMAIL_ADDRESS"
},
"count": "30"
}, {
"infoType": {
"name": "US_STATE"
},
"count": "22"
}]
Когда я конвертирую .parquet
подать в .csv
Я получаю файл размером 360,58 МБ. Затем, если я сделаю вызов API на .csv
файл, который я получаю:
"processedBytes": "377530307",
"infoTypeStats": [{
"infoType": {
"name": "CREDIT_CARD_NUMBER"
},
"count": "56546"
}, {
"infoType": {
"name": "EMAIL_ADDRESS"
},
"count": "372527"
}, {
"infoType": {
"name": "NETHERLANDS_BSN_NUMBER"
},
"count": "5"
}, {
"infoType": {
"name": "US_TOLLFREE_PHONE_NUMBER"
},
"count": "1331321"
}, {
"infoType": {
"name": "AUSTRALIA_TAX_FILE_NUMBER"
},
"count": "52269"
}, {
"infoType": {
"name": "PHONE_NUMBER"
},
"count": "28"
}, {
"infoType": {
"name": "US_DRIVERS_LICENSE_NUMBER"
},
"count": "114"
}, {
"infoType": {
"name": "US_STATE"
},
"count": "141383"
}, {
"infoType": {
"name": "KOREA_RRN"
},
"count": "56144"
}],
Очевидно, когда я сканирую .parquet
файл не все infoTypes
обнаружены по сравнению с запуском сканирования на .csv
файл, где я проверил, что все EmailAddresses
были обнаружены.
Я не смог найти никакой документации по сжатым файлам, таким как паркет, поэтому я предполагаю, что Google Cloud DLP не предлагает эту возможность.
Любая помощь будет принята с благодарностью.
1 ответ
Файлы паркета в настоящее время сканируются как двоичные объекты, поскольку система еще не выполняет их интеллектуальный анализ. В API V2 поддерживаемые типы файлов перечислены здесь https://cloud.google.com/dlp/docs/reference/rpc/google.privacy.dlp.v2#filetype.