Очистка URL для удаления личной информации

Существуют ли правила для идентификации и удаления любой информации PII из URL? Я хотел бы, чтобы это было общим и обрабатывало все виды URL, с которыми мы могли бы столкнуться в Интернете.

Уточнение: у меня есть список адресов людей, просматривающих интернет, и я хочу удалить PII из них.

2 ответа

Решение

Чтобы ответить на вопрос, изложенный в вашем ответе на snemarch:

Да, я понимаю это. Я имел в виду, какие соображения мне нужно учитывать, чтобы идентифицировать PII в URL? Каковы различные способы возникновения PII в URls?

Информация HTTP GET может передаваться разными способами. Некоторые, и, вероятно, большинство, будут выглядеть так:

example.com/form.php?key=value.

Другие веб-сайты, включая stackru, могут использовать перезапись URL -адреса для преобразования ссылки "example.com/form/value" в эквивалент: "example.com/form.php?key=value". Перезапись URL полностью зависит от конфигурации сервера, и не существует простого способа обнаружить и удалить PII, представленный таким образом.

Имея это в виду, на самом деле нет никакого способа на 100% удалить все PII из списка различных URL, так как такая информация может быть неразличима из URL без какого-либо PII. Вы можете, по крайней мере, удалить информацию, которая является ОПРЕДЕЛЕННО PII, такой как URL в форме "example.com/form.php?key=value". Я был бы готов поспорить, что любой URL с "=" содержит какую-то переменную и должен быть отфильтрован. После этого вам придется вручную анализировать большую часть списка.

В зависимости от того, насколько большой список и насколько серьезно вы относитесь к его фильтрации, вы можете исследовать популярные методы mod_rewrite для популярных продуктов и попытаться сопоставить их в своем списке, очистить URL -адреса, чтобы определить дополнительную информацию об URL -адресе, и сделать некоторые сложные и вероятные. уродливые алгоритмы, пытающиеся угадать, что может быть переменной в URL -адресе - возможно, с учетом похожих URL -адресов, которые посетил пользователь, и сравнение токенов URL -адреса. похожие URL с немного отличающимся текстом в данном токене, вероятно, являются переменными и должны быть отфильтрованы.

Удачи!

Вы никогда не должны передавать конфиденциальную информацию пользователя из URL через GET. Если вместо этого вы используете POST, просто убедитесь, что соединение HTTPS.

Другие вопросы по тегам