Оцените плотность вероятности данного значения, если оно относится к высокопиковому многомерному набору данных с высоким эксцессом (>100)

У меня есть набор данных, который имеет несколько переменных, каждая из которых сильно центрирована вокруг нуля, чтобы сформировать высокий пик. Эксцесс каждой переменной составляет более 100.

То, что я хочу оценить, это плотность вероятности любого данного значения, если оно принадлежит к набору данных. Наиболее доступной функцией распределения, которую я нашел в настоящее время, является многовариантное распределение Гаусса. Однако, поскольку мой набор данных не является нормальной формой, и я беспокоюсь, что неточно оценить плотность вероятности, используя эту функцию.

Есть ли у кого-нибудь хорошие предложения, какую функцию использовать для этой цели?

1 ответ

Вы повторяете общую неверную интерпретацию эксцессов, а именно "пик", что вносит путаницу в то, какой дистрибутив использовать.

Куртоз вообще не измеряет "остроту". Вы можете иметь распределение с совершенно плоским пиком, с V-образным пиком, с тримодальным пиком, с волнистым пиком или с любым пиком формы, который имеет бесконечный эксцесс. И вы можете иметь распределение с бесконечным пиком, чем имеет отрицательный (избыточный) эксцесс.

Вместо этого, куртоз является мерой хвостов (выпадающего потенциала) распределения, а не пика. Единственная причина, по которой люди думают, что при высоком эксцессе наблюдается "высокий пик", заключается в том, что выбросы растягивают горизонтальную шкалу гистограммы, в результате чего данные выглядят сосредоточенными в узкой вертикальной полосе. Но если вы увеличите объем данных в этой полосе, пик может иметь любую форму. Кроме того, если вы сравните высоту вашей гистограммы стандартизированных данных с высотой соответствующего стандартного нормали, то вы можете быть выше, независимо от того, что показывают ваши данные. Мифология "высоты" была развенчана в 1945 году Капланским.

Для ваших данных вам не нужен "пиковый" дистрибутив. Вместо этого вам нужно распределение, которое допускает такие экстремальные значения, которые вы наблюдали. Примеры включают смешанные распределения, логнормальные распределения, t распределения с небольшими степенями свободы или их многовариантные версии, если это то, что вам нужно.

Рекомендации:

Westfall, PH (2014). Куртоз как пик, 1905 - 2014. RIP The American Statistician, 68, 191–195.

(Упрощенное обсуждение вышеприведенного документа дано в разделе "Обсуждение" статьи в Википедии о куртозе.)

Другие вопросы по тегам