Расстояние Вассерштейна между двумя дистрибутивами python
У меня есть распределения некоторых данных до и после возникновения события. Я хочу найти расстояние между этими двумя распределениями. Другими словами, насколько мне нужно масштабировать распределение до события, чтобы приблизиться к распределению после события? Я думаю, что расстояние Вассерштейна мне подходит, но у меня есть некоторые сомнения:
- Распределение: ось X - дни, ось Y - количество точек данных в этот день. Как передать эти два столбца в качестве входных данных в scipy.stats.wasserstein_distance?
- Распределение пост-событий имеет более длинный хвост, чем распределение до события. Какая метрика расстояния лучше всего подходит для измерения изменения величины по оси X, а также увеличения по оси Y?
>>> df.head()
day number
0 7 1
1 8 1
2 10 2
3 11 1
4 15 4
>>> df_after.head()
day number
0 6 1
1 19 1
2 20 1
3 21 1
4 22 2
>>> wasserstein_distance(df['number'], df_after['number']) #looks at only one column of DF- how do I pass the distribution?
0.8674329501915711
Вот примерный график реального набора данных, синий - это событие перед событием, а оранжевый - возникновение после события. Моя конечная цель - изучить такие распределения и обобщить коэффициент масштабирования, т.е. насколько мне нужно масштабировать распределение до события, чтобы перейти к распределению после события?
1: