Периодичность данных - Как нормализовать?
У меня есть набор данных, который содержит данные о погоде за 12 лет. За первые 10 лет данные записывались за сутки. В течение последних двух лет он записывается в неделю. Я хочу использовать эти данные в Python Pandas для анализа, но я немного теряюсь в том, как их нормализовать для использования.
Мои мысли
- Преобразуйте данные за первые 10 лет также в недельные данные, используя средние значения. Может работать, но так много данных теряется при переводе.
- Недельные данные не могут быть преобразованы в данные за день.
- Игнорировать ежедневные данные - это огромная потеря
- Игнорировать еженедельные данные - я теряю более свежие данные.
Есть идеи по этому поводу?
1 ответ
Сначала вам нужно определить, какой вывод вам нужен, а затем определить, как обрабатывать ввод, чтобы получить желаемый вывод.
Что касается ежедневных данных за первые 10 лет, это может быть возможным вариантом сохранить только один день в неделю. Подвыборка не всегда означает потерю информации и не всегда меняет конечный результат. Это зависит от характера собираемых данных: скорости изменения данных, погрешности измерения, шума.
Скорость вариаций: обратитесь к Шеннону, чтобы решить, не теряется ли информация при выборке один раз в неделю, а не каждый день. Учитывая, что за последние 2 года некоторые люди решили проводить выборку только один раз в неделю, кажется, что они заметили, что данные не сильно меняются каждый день, и что выборка каждую неделю является достаточной информацией. Это дает подсказку для голосования за окончательный набор данных, который будет включать одну выборку каждую неделю в течение 12 лет. Если только они не уменьшили выборку по соображениям стоимости, сделав компромисс между точностью и стоимостью проведения выборки. Попытайтесь найти в литературе, с какой скоростью ваши данные будут варьироваться.
Ошибка измерения: Если ошибка измерения содержит небольшой эпсилон, который является случайным положительным или отрицательным, то лучше взять данные в среднем за 7 дней, чтобы получить данные за "одну неделю", поскольку это увеличит шансы на отмену этого изменения. В противном случае, достаточно сделать подвыборку, взяв всего 1 день в неделю и выбрасывая другие дни недели. Я бы попробовал оба метода, усреднение и подвыборку, и посмотреть, значительно ли отличается результат.