Обнаружение личной информации в режиме реального времени (PII)

У меня есть проект, который включает произвольный ввод текста пользователем (строки длиной менее 80 символов), и мне нужно обнаружить PII в этой строке. Все это должно происходить в режиме реального времени, так как нам нужно отправить ответ на ввод пользователя (в течение 2 секунд или около того), который частично основан на том, присутствует ли PII в тексте.

Я уже нашел некоторые решения, но они не совсем то, что я ищу:
- Google DLP - запросы на обработку строки занимают более двух секунд, поэтому их нельзя использовать.
- redact-pii (модуль npm) - слишком прост в их обнаружении
- AWS Macie - работает с существующими хранилищами данных, а не с данными в полете.

Есть ли у вас какие-либо предложения для служб или библиотек, которые могут помочь с этим?

Конкретный PII, который мы хотим обнаружить, включает в себя такие вещи, как имя, адрес, номер телефона. Также SPII, такой как номер кредитной карты, номер социального страхования. По сути, мы хотим быть совместимыми при обработке произвольного текста с такими стандартами, как PIPEDA и GDPR.

1 ответ

Как насчет недавно запущенной функции защиты данных сообщений Amazon SNS? Он может обнаруживать и защищать PII и PHI в движении, в режиме реального времени, без специального кода.

https://aws.amazon.com/about-aws/whats-new/2022/09/amazon-sns-preview-message-data-protection-sensitive-data-in-motion/

Эта функция поддерживает идентификаторы данных, которые вы ищете для сканирования, включая имя, адрес, номер телефона, номер кредитной карты и номер социального страхования.

Другие вопросы по тегам