Google Cloud Data Prevention (DLP) сканирует файлы.parquet в GCS

Я новичок в Google Cloud DLP и запустил POST https://dlp.googleapis.com/v2beta1/inspect/operations для сканирования .parquet файл в каталоге Google Cloud Storage, а также с помощью cloudStorageOptions чтобы сохранить .csv выход.

.parquet файл 53,93 м.

Когда я делаю вызов API на .parquet файл, который я получаю:

"processedBytes": "102308122",
"infoTypeStats": [{
   "infoType": {
      "name": "AMERICAN_BANKERS_CUSIP_ID"
   },
   "count": "1"
}, {
   "infoType": {
      "name": "IP_ADDRESS"
   },
   "count": "17"
}, {
   "infoType": {
      "name": "US_TOLLFREE_PHONE_NUMBER"
   },
   "count": "148"
}, {
   "infoType": {
      "name": "EMAIL_ADDRESS"
   },
   "count": "30"
}, {
   "infoType": {
      "name": "US_STATE"
   },
   "count": "22"
}]

Когда я конвертирую .parquet подать в .csv Я получаю файл размером 360,58 МБ. Затем, если я сделаю вызов API на .csv файл, который я получаю:

"processedBytes": "377530307",
"infoTypeStats": [{
   "infoType": {
      "name": "CREDIT_CARD_NUMBER"
   },
   "count": "56546"
}, {
   "infoType": {
      "name": "EMAIL_ADDRESS"
   },
   "count": "372527"
}, {
   "infoType": {
      "name": "NETHERLANDS_BSN_NUMBER"
   },
   "count": "5"
}, {
   "infoType": {
      "name": "US_TOLLFREE_PHONE_NUMBER"
   },
   "count": "1331321"
}, {
   "infoType": {
      "name": "AUSTRALIA_TAX_FILE_NUMBER"
   },
   "count": "52269"
}, {
   "infoType": {
      "name": "PHONE_NUMBER"
   },
   "count": "28"
}, {
   "infoType": {
      "name": "US_DRIVERS_LICENSE_NUMBER"
   },
   "count": "114"
}, {
   "infoType": {
      "name": "US_STATE"
   },
   "count": "141383"
}, {
   "infoType": {
      "name": "KOREA_RRN"
   },
   "count": "56144"
}],

Очевидно, когда я сканирую .parquet файл не все infoTypes обнаружены по сравнению с запуском сканирования на .csv файл, где я проверил, что все EmailAddresses были обнаружены.

Я не смог найти никакой документации по сжатым файлам, таким как паркет, поэтому я предполагаю, что Google Cloud DLP не предлагает эту возможность.

Любая помощь будет принята с благодарностью.

1 ответ

Файлы паркета в настоящее время сканируются как двоичные объекты, поскольку система еще не выполняет их интеллектуальный анализ. В API V2 поддерживаемые типы файлов перечислены здесь https://cloud.google.com/dlp/docs/reference/rpc/google.privacy.dlp.v2#filetype.

Другие вопросы по тегам