Сравнение многомерных распределений

У меня есть набор многовариантных экземпляров, и мне нужно извлечь репрезентативный набор из этих экземпляров; например, если у меня 100000 многовариантных экземпляров, я хочу извлечь 1000 экземпляров, которые будут представлять исходный дистрибутив. Я использовал выборку из латинского гиперкуба и случайную выборку, чтобы извлечь два репрезентативных набора, и теперь я хочу проверить, насколько коррелируют эти два репрезентативных набора с исходным набором.

Если я уточню дальше;

У меня есть 100000 многомерных экземпляров (назовем это A)

Я получаю две репрезентативные выборки из 'A' (каждый набор будет иметь 1000 экземпляров; давайте назовем эти два набора B и C)

Я хочу проверить, сохраняют ли 'B' и 'C' оригинальное распределение 'A'.

Заранее большое спасибо!

1 ответ

Решение

Это больше вопрос статистики, но вот схема. Обычно вы использовали бы критерий хи-квадрат для сравнения распределений. Основные шаги заключаются в следующем.

  1. Бин каждого из наборов данных. Попробуйте настроить ячейки так, чтобы в каждой ячейке было как минимум 5 или более сэмплов. (Используйте одинаковые корзины для всех наборов данных).

  2. Используйте большую выборку "A", чтобы определить ожидаемое количество выборок (назовите это f_e) в каждой ячейке. (Кстати. Обратите внимание, что f_e для любого конкретного бина будет составлять 1/100 от числа выборок в этом конкретном бине, поскольку выборка A содержит в 100 раз больше точек данных B или C).

  3. Чтобы проверить один из образцов (скажем, B), вычислите сумму: S = сумма по всем ячейкам (f_o - f_e) ^ 2 / fe, где f_o - наблюдаемая частота в ячейке.

  4. Эта сумма является переменной хи-квадрат со степенями свободы на единицу меньше, чем общее количество бинов, которые вы используете.

  5. Рассчитать 1 - chi2cdf(S, DOF). Это вероятность того, что сумма, большая или большая, чем та, которую вы получили (S), могла произойти исключительно из-за случайных изменений (то есть, даже если распределение было идентичным). Таким образом, небольшой результат (близкий к 0) означает, что распределение, вероятно, будет отличаться, а большой результат (близкий к 1) означает, что они вряд ли будут существенно отличаться.

Вероятно, есть библиотечная функция для выполнения всего вышеперечисленного. IDK, так как я давно не пользовался никакими статистическими библиотеками.

Другие вопросы по тегам