Очистка URL для удаления личной информации
Существуют ли правила для идентификации и удаления любой информации PII из URL? Я хотел бы, чтобы это было общим и обрабатывало все виды URL, с которыми мы могли бы столкнуться в Интернете.
Уточнение: у меня есть список адресов людей, просматривающих интернет, и я хочу удалить PII из них.
2 ответа
Чтобы ответить на вопрос, изложенный в вашем ответе на snemarch:
Да, я понимаю это. Я имел в виду, какие соображения мне нужно учитывать, чтобы идентифицировать PII в URL? Каковы различные способы возникновения PII в URls?
Информация HTTP GET может передаваться разными способами. Некоторые, и, вероятно, большинство, будут выглядеть так:
example.com/form.php?key=value.
Другие веб-сайты, включая stackru, могут использовать перезапись URL -адреса для преобразования ссылки "example.com/form/value" в эквивалент: "example.com/form.php?key=value". Перезапись URL полностью зависит от конфигурации сервера, и не существует простого способа обнаружить и удалить PII, представленный таким образом.
Имея это в виду, на самом деле нет никакого способа на 100% удалить все PII из списка различных URL, так как такая информация может быть неразличима из URL без какого-либо PII. Вы можете, по крайней мере, удалить информацию, которая является ОПРЕДЕЛЕННО PII, такой как URL в форме "example.com/form.php?key=value". Я был бы готов поспорить, что любой URL с "=" содержит какую-то переменную и должен быть отфильтрован. После этого вам придется вручную анализировать большую часть списка.
В зависимости от того, насколько большой список и насколько серьезно вы относитесь к его фильтрации, вы можете исследовать популярные методы mod_rewrite для популярных продуктов и попытаться сопоставить их в своем списке, очистить URL -адреса, чтобы определить дополнительную информацию об URL -адресе, и сделать некоторые сложные и вероятные. уродливые алгоритмы, пытающиеся угадать, что может быть переменной в URL -адресе - возможно, с учетом похожих URL -адресов, которые посетил пользователь, и сравнение токенов URL -адреса. похожие URL с немного отличающимся текстом в данном токене, вероятно, являются переменными и должны быть отфильтрованы.
Удачи!
Вы никогда не должны передавать конфиденциальную информацию пользователя из URL через GET. Если вместо этого вы используете POST, просто убедитесь, что соединение HTTPS.