Пакеты R для анализа пространственно-временных данных и отдельного влияния коррелированных предикторов на переменную ответа

Я ищу подходящий пакет R для анализа: i) Статистических различий в одной или двух переменных отклика для разных образцов / сезонов, которые пространственно-временные коррелируют. ii) Разделите влияние различных параметров на переменную отклика, где несколько предикторов сильно коррелируют, но я подозреваю, что они имеют значительные индивидуальные эффекты.

Подробности:

У меня есть набор данных временного ряда (суточный / сезонный) по широкому диапазону климатических / потоковых (температура воздуха, температура воды, интенсивность солнечного света, расход) и подповерхностных (уклонение газообразных осадков, температура наносов, температура грунтовых вод, электропроводность) параметров окружающей среды, пытаясь определить, какие факторы определяют уклонение от отложений газа и температуру отложений. Я подозреваю, что температура и содержание органических веществ являются основными причинами уклонения от газа. Но как разделить воздействие температуры воздуха, температуры воды и радиации и определить вклад каждого из них в температуру осадка, поскольку температура воздуха определяет температуру воды и воздействие радиации и температуры воздуха на осадок и температуру воды. Кроме того, каждый параметр имеет различное влияние времени запаздывания в зависимости от его интенсивности (из наблюдений), и ясно, что суточные температуры связаны друг с другом, а места отбора проб ниже по течению, они, вероятно, также пространственно коррелированы. Итак... я) Как мне статистически доказать различия в ответных переменных суточных / сезонных
II) Определите вклад каждой переменной предиктора в мой параметр ответа

Заранее спасибо за ваши идеи!

1 ответ

На мой взгляд, ваш вопрос неуместен, так как он больше относится к статистическому моделированию, чем к R и его пакетам.

и) Нет способа статистически "доказать" это. В лучшем случае могут быть сильные признаки. II) Насколько мне известно, нет элегантного и надежного способа сделать это. Я знаю, что для отдельных зависимых переменных существует R-пакет под названием relayimpo, который предоставляет один из способов решения таких вопросов: https://cran.r-project.org/web/packages/relaimpo/index.html

То, что вы пытаетесь решить, звучит как очень сложная задача, требующая глубокого понимания используемых методов и имеющихся данных. Вот как я мог бы подойти к проблеме: начать проще. На 1 одном участке выборки используйте, например, ковариационные матрицы корреляций. Затем перейдите к лаговой ковариации, GLM, ... . Может быть, проверить канонические корреляции. Может быть, посмотрите на PCA,... Скорее всего, это даст вам много информации уже. В конечном счете, чтобы действительно выяснить, как каждая из переменных влияет на любую другую переменную, вам нужно будет нарушить систему. Например, измените температуру воды и наблюдайте влияние на все остальные переменные.

Если вы действительно хотите использовать передовые методы моделирования с использованием скрытых переменных пространств и внутренних состояний, то вы можете использовать что-то вроде динамической линейной модели. Учебник по DLM и моделированию пространства состояний можно найти здесь: http://helios.fmi.fi/~lainema/dlm/dlmtut.html. Хотя модель в учебнике имеет только одну зависимую переменную, вы можете сформулировать зависимые временные ряды в виде матрицы и при необходимости векторизовать параметры. Взгляните также на моделирование структурных уравнений.

Другие вопросы по тегам