Чрезвычайно низкие значения р из непараметрических тестов

Я использую непараметрические тесты Python, чтобы проверить, соответствуют ли две выборки тем же базовым группам: scipy.stats.ks_2samp (2 образца Колмогорова-Смирнова), scipy.stats.anderson_ksamp (Андерсон-Дарлинг для k образцов) и scipy.stats.ranksums (Манн-Уитни-Уилкоксон для 2 образцов). Мой порог значимости, чтобы сказать, что два образца значительно отличаются друг от друга, равен p = 0,01.

Если эти три теста возвращают чрезвычайно низкие p-значения (иногда такие как 10^-30 или ниже), то нужно ли мне беспокоиться о том, что что-то пошло не так с функциями scipy? Являются ли эти смехотворно малые значения р надежными, и могу ли я просто сообщить, что р << 0,01 (р намного меньше моего порога)?

3 ответа

Решение

Вам не нужно беспокоиться о том, что что-то пойдет не так с функциями scipy. Низкие значения P означают, что маловероятно, чтобы у ваших выборок были одинаковые родительские популяции.

Тем не менее, если вы не ожидали, что распределения будут (что) разными, сейчас самое время убедиться, что вы измеряете то, что, как вы думаете, вы измеряете, то есть вы вводите правильные данные, чтобы послушать.

Распространенная ошибка (по крайней мере, в области наук о жизни), которая может привести к неправильным (слишком маленьким) значениям p, заключается в том, что допущение независимости теста - тесты обычно предполагают, что наблюдения (точки данных) в выборке независимы - нарушались. Контрольный список GraphPad для Манна-Уитни, например, имеет это под "независимыми от ошибок".

В качестве ссылки, в этой статье 2010 года был рассмотрен один выпуск Nature Neuroscience (ведущий журнал по нейронауке), в котором было обнаружено, что "12% статей имели псевдорепликацию, а еще 36% подозревались в псевдорепликации".

Итак, вы наткнулись на хорошо известную особенность тестов значимости, которая заключается в том, что значение p обычно обнуляется при увеличении размера выборки без ограничений. Если нулевая гипотеза ложна (что часто может быть установлено априори), тогда вы можете получить настолько малое значение p, насколько пожелаете, просто увеличив размер выборки.

Мой совет - подумать о том, какое практическое значение имеет различие в распределении. Попробуйте дать количественную оценку в терминах стоимости, реальной (в долларах) или абстрактной. Затем разработайте измерение для этого.

Другие вопросы по тегам