Параметрический или непараметрический групповой тест для 5 различных групп

Постановка задачи - Статистически доказать, что 5 групп являются одинаковыми или разными

  • Я работаю над проблемой с размером набора данных ~600 000.

  • Есть 5 групп, скажем, [A,B,C,D,E] и соответствующие зарплаты с ~100 тыс. Наблюдений на группу.

df['Salary'] слегка перекошен. Я попробовал ANOVA и тест Kruskal.

ANOVA Результаты

Если я использую все данные - значение p указывает, что группы статистически различны (p

Если я использую 10K случайных выборок в каждой группе, то значение p увеличивается до ~0.002333.

Если я использую 1000 случайных выборок в каждой группе, значение р превышает 0,05 и имеет порядок ~ 0,5

Я не уверен, как оценить эти результаты? Какой должен быть размер выборки и какие другие методы мне следует рассмотреть?

Среднее и SD 5 групп ниже (когда я рассматриваю 100 000 случайных выборок для каждой группы:

Группа 1 - (12.134831460674159, 5.1823701530849995)

Группа 2 - (11.64860907759883, 5.092876703946831)

Группа 3 - (11.660195118395315, 4.952100116921575)

Группа 4 - (12.052747507535358, 5.091383288751849)

Группа 5 - (11.468062169943916, 4.996349965883181)

КРУСКАЛ РЕЗУЛЬТАТЫ

Когда размер выборки = 100

KruskalResult(statistic=34.20564125753886, pvalue=6.762162830091762e-07)

Когда размер выборки 10000

KruskalResult(statistic=179.39353155924363, pvalue=1.0064249109632168e-37)

Распределение средней заработной платы - Общая численность населения ~600 тыс.

1 ответ

Решение

У вас огромный размер выборки, 100 КБ для каждой группы. С таким количеством точек данных вы почти гарантированно найдете статистически значимое различие / результат. Эти статистические тесты не были предназначены для таких больших выборок.

Вы должны использовать все свои данные, чтобы получить наилучшие возможные оценки, однако вам придется использовать знания предметной области, чтобы решить, является ли разница практически значимой. Также вы должны посмотреть на доверительные интервалы, чтобы определить эффект.

Кроме того, ANOVA делает предположение о нормальном распределении остатков, а не данных.

Другие вопросы по тегам