Оцените плотность вероятности данного значения, если оно относится к высокопиковому многомерному набору данных с высоким эксцессом (>100)
У меня есть набор данных, который имеет несколько переменных, каждая из которых сильно центрирована вокруг нуля, чтобы сформировать высокий пик. Эксцесс каждой переменной составляет более 100.
То, что я хочу оценить, это плотность вероятности любого данного значения, если оно принадлежит к набору данных. Наиболее доступной функцией распределения, которую я нашел в настоящее время, является многовариантное распределение Гаусса. Однако, поскольку мой набор данных не является нормальной формой, и я беспокоюсь, что неточно оценить плотность вероятности, используя эту функцию.
Есть ли у кого-нибудь хорошие предложения, какую функцию использовать для этой цели?
1 ответ
Вы повторяете общую неверную интерпретацию эксцессов, а именно "пик", что вносит путаницу в то, какой дистрибутив использовать.
Куртоз вообще не измеряет "остроту". Вы можете иметь распределение с совершенно плоским пиком, с V-образным пиком, с тримодальным пиком, с волнистым пиком или с любым пиком формы, который имеет бесконечный эксцесс. И вы можете иметь распределение с бесконечным пиком, чем имеет отрицательный (избыточный) эксцесс.
Вместо этого, куртоз является мерой хвостов (выпадающего потенциала) распределения, а не пика. Единственная причина, по которой люди думают, что при высоком эксцессе наблюдается "высокий пик", заключается в том, что выбросы растягивают горизонтальную шкалу гистограммы, в результате чего данные выглядят сосредоточенными в узкой вертикальной полосе. Но если вы увеличите объем данных в этой полосе, пик может иметь любую форму. Кроме того, если вы сравните высоту вашей гистограммы стандартизированных данных с высотой соответствующего стандартного нормали, то вы можете быть выше, независимо от того, что показывают ваши данные. Мифология "высоты" была развенчана в 1945 году Капланским.
Для ваших данных вам не нужен "пиковый" дистрибутив. Вместо этого вам нужно распределение, которое допускает такие экстремальные значения, которые вы наблюдали. Примеры включают смешанные распределения, логнормальные распределения, t распределения с небольшими степенями свободы или их многовариантные версии, если это то, что вам нужно.
Рекомендации:
Westfall, PH (2014). Куртоз как пик, 1905 - 2014. RIP The American Statistician, 68, 191–195.
(Упрощенное обсуждение вышеприведенного документа дано в разделе "Обсуждение" статьи в Википедии о куртозе.)