Удаление метаданных объекта в R
Я пишу некоторый код для анонимизации набора данных R таким образом, чтобы он удалял любую полезную информацию из данных, сохраняя структуру, которая была бы важна для выполнения регрессий и т. Д. На нем. Я хочу быть уверен, что удалил все возможные места, где любая скрытая информация о данных могла скрываться. Мой процесс до сих пор:
- Замените имена переменных фрейма данных неинформативными именами (x1, x2, ...)
- Превратите все категориальные переменные в факторы с простыми числовыми уровнями
- Масштабируйте и центрируйте все числовые переменные (кроме логических или 0/1)
- использование
attributes(x) <- NULL
раздеть такие вещи, как переменные метки, добавленные черезhaven
, так далее.
Я пытаюсь надеть свою шляпу из фольги, когда уточняю эту процедуру. Я охватил все свои базы или есть какой-то другой способ, которым информация о содержимом данных могла бы скрываться в моем наборе данных?
NB: я специально спрашиваю о том, удалил ли я всю информацию, явно содержащуюся в объектах R. Например, начинающий пользователь R, который не знает об атрибутах, может подумать, что одних шагов 1 - 3 достаточно для удаления объекта читаемой информации. Я хотел бы выяснить, есть ли другие функции, которые мне, возможно, понадобится удалить. Вопрос о том, есть ли какая-либо убедительная информация в структуре самих данных, относится к моей более широкой задаче, но выходит за рамки этого сайта, и я думаю, что на нем могут быть написаны стопки.