Доверительные интервалы по сравнению со стандартным отклонением в морском

Когда я использую доверительные интервалы Seaborn в pointplot Я получаю обманчиво малые значения по сравнению со стандартной ошибкой. Пример:

import seaborn as sns
import matplotlib.pylab as plt
import pandas
import numpy as np

x = np.random.rand(100)
y = np.random.rand(100)
df = pandas.DataFrame({"x": x,
                       "y": y})
data = pandas.melt(df)
print "data: ", data
plt.figure()
plt.subplot(2, 1, 1)
sns.pointplot(x="variable", y="value", data=data)
plt.ylim([0, 0.9])
ax = plt.subplot(2, 1, 2)
m = [df["x"].mean(), df["y"].mean()]
e = [df["x"].std(), df["y"].std()]
plt.errorbar(range(1,3), m, yerr=e)
plt.ylim([0, 0.9])
plt.xlim([0, 4])
plt.xticks([1, 2])
ax.set_xticklabels(["x", "y"])

стандартные отклонения значительно больше. чем это объясняется? может ли морская граница отображать столбцы ошибок, которые ближе к простой метрике, такой как стандартное отклонение?

введите описание изображения здесь

на нижнем графике показаны стандартные ошибки для x и y, и они намного больше, чем доверительные интервалы для морского побережья для x и y (на верхнем графике).

1 ответ

Решение

Более точный мой предыдущий ответ ниже, так как стандартное отклонение равномерной случайной величины составляет 1/sqrt(12)~=0,2887, столбцы на вашем втором графике охватывают интервал размером примерно [0,5-0,2887,0,5+0,2887]=[0.2113,0.7887].

С другой стороны, по центральной предельной теореме 95-процентный доверительный интервал среднего эмпирического значения для 100 равномерных случайных величин будет примерно равен [0,5-1,96*0,2887/sqrt(100),0,5+1,96*0,2887 / sqrt (100).)]~=[0.443,0.557]. Это соответствует доверительному интервалу, нарисованному Морским Рогом на вашем первом участке.

Подводя итог, можно сказать, что для расчетов статистических доверительных интервалов размер выборки играет решающую роль, и им нельзя пренебрегать!

Предыдущий более короткий ответ В доверительных интервалах Seaplot учитывается количество выборок, которые используются для оценки среднего значения. Учитывая, что вы вручили морскому участку приличное количество из 100 выборочных точек, 95-процентный доверительный интервал для эмпирического среднего значения из 100 выборочных точек действительно будет довольно небольшим.

Чтобы получить правильное сравнение, вы должны масштабировать стандартные ошибки на 1/sqrt(100), а затем сравнить графики.

Другие вопросы по тегам