Расстояние Вассерштейна между двумя дистрибутивами python

У меня есть распределения некоторых данных до и после возникновения события. Я хочу найти расстояние между этими двумя распределениями. Другими словами, насколько мне нужно масштабировать распределение до события, чтобы приблизиться к распределению после события? Я думаю, что расстояние Вассерштейна мне подходит, но у меня есть некоторые сомнения:

  1. Распределение: ось X - дни, ось Y - количество точек данных в этот день. Как передать эти два столбца в качестве входных данных в scipy.stats.wasserstein_distance?
  2. Распределение пост-событий имеет более длинный хвост, чем распределение до события. Какая метрика расстояния лучше всего подходит для измерения изменения величины по оси X, а также увеличения по оси Y?
>>> df.head()
   day  number
0    7       1
1    8       1
2   10       2
3   11       1
4   15       4
>>> df_after.head()
   day  number
0    6       1
1   19       1
2   20       1
3   21       1
4   22       2
>>> wasserstein_distance(df['number'], df_after['number']) #looks at only one column of DF- how do I pass the distribution?
0.8674329501915711

Вот примерный график реального набора данных, синий - это событие перед событием, а оранжевый - возникновение после события. Моя конечная цель - изучить такие распределения и обобщить коэффициент масштабирования, т.е. насколько мне нужно масштабировать распределение до события, чтобы перейти к распределению после события?

1:

0 ответов

Другие вопросы по тегам