Как сравнить результаты разных статистических тестов?
Я не знаю, хороший это вопрос или нет.
Вот случай, скажем, у меня есть масштабная / непрерывная зависимая переменная и набор независимых переменных. Моя конечная цель - построить модель для прогнозирования / оценки зависимой переменной с использованием этих независимых переменных. Я считаю, что это обычная обстановка.
Дело в том, что я знаю физический смысл всех переменных, но я не знаю их детальной взаимосвязи (или даже связанной или нет). Я хочу построить модель больше с точки зрения анализа / объяснения, чтобы я мог получить представление о модели из реальной жизни вместо черного ящика.
Мой подход заключается в попытке использовать алгоритм CHAID для построения модели дерева решений. В каждой ветви я хочу статистически проверить каждую независимую переменную, чтобы увидеть, есть ли связь между ней и зависимой переменной. Затем, основываясь на результатах теста, я хочу выбрать самый мощный для построения моего дерева.
Проблема состоит в том, что, в отличие от алгоритма CHAID, где большинство переменных являются категориальными, в моем случае зависимая переменная является масштабной, а независимые переменные являются категориальными или масштабными, что означает, что мне может потребоваться провести различные статистические тесты для разных переменных, например t-критерий и ANOVA для категориальных и регрессия для непрерывных. Мне интересно, как мне честно сравнить эти результаты, чтобы выбрать самый мощный? (как шаг коррекции в CHAID)
Любая идея в любой части моего плана очень важна для меня! Спасибо!