Выявить природу отсутствия для категориальных переменных

Не могли бы вы дать мне несколько советов для определения характера пропущенных значений для пропущенных значений категориальных переменных? Я имею в виду, я дал быстрый поиск на Google ученый, но я не нашел ничего связанного с этим. Как я могу понять, если пропущенные значения отсутствуют полностью случайно, они отсутствуют случайно или, наконец, они отсутствуют случайно? Кроме изучения предметной области, я ничего не могу придумать. Ссылки на некоторые статьи приветствуются, спасибо заранее. (Я добавлю это в среде sas, но этот вопрос не связан конкретно с этим языком).

1 ответ

Поскольку вы пометили это как SAS, один из подходов, который вы могли бы использовать, - это создать логическую переменную для каждой из ваших категориальных переменных, указывающую, имеет ли она пропущенное значение в каждой строке. Затем вы можете сделать любой анализ по частоте пропущенных значений, используя флаги. Например, вы могли бы использовать proc corr чтобы увидеть, если пропущенные значения одной переменной коррелируют со значениями других переменных.

Например, предположим, что у вас есть такая ситуация:

data example;
    set sashelp.class;
    if AGE > 14 then call missing(SEX);
    SEX_MISSING_FLAG = missing(SEX);
run;

Затем вы можете определить это, выполнив следующее:

proc corr data = example outp= corr;
    var age weight height sex_missing_flag;
run;

Выход:

_TYPE_,_NAME_,Age,Weight,Height,SEX_MISSING_FLAG
MEAN,,13.32,100.03,62.34,0.26
STD,,1.49,22.77,5.13,0.45
N,,19.00,19.00,19.00,19.00
CORR,Age,1.00,0.74,0.81,0.78
CORR,Weight,0.74,1.00,0.88,0.64
CORR,Height,0.81,0.88,1.00,0.55
CORR,SEX_MISSING_FLAG,0.78,0.64,0.55,1.00
Другие вопросы по тегам