Использование распределения семейства Гаусса для предсказания дискретных величин в GLM
Можно ли (законный подход) использовать Обобщенную линейную модель с распределением семейства Гаусса для прогнозирования дискретных величин, например, округляя выходные данные гауссовой GLM до ближайшего целого числа?
1 ответ
Вы можете сделать это, но это может быть не лучшим решением. Это действительно зависит от характера данных, которые вы пытаетесь смоделировать. Вполне может быть, что регрессия ядов лучше подходит для ваших нужд.
http://en.wikipedia.org/wiki/Poisson_regression
Тем не менее, нет ничего, что могло бы помешать вам на самом деле адаптировать линейную модель к целочисленным данным, но у вас могут возникнуть проблемы, когда вы делаете вывод о своих данных с помощью модели. Если вы просто пытаетесь предоставить модель, из которой можно предсказать будущие наблюдения, она вполне может сработать, даже если она не является теоретически обоснованной.
Ясно, учитывая природу модели, вы можете в конечном итоге предсказать совершенно нелепые результаты - например, ваша переменная отклика может иметь смысл только в ограниченном диапазоне (скажем, положительные целые числа), но ваша модель может позволить прогнозировать произвольно большие значения (положительное И отрицательное). Шаги проверки модели, такие как остаточная проверка (нормальность и корреляция), могут не дать тип результатов, которые вы обычно видите при моделировании непрерывных нормально распределенных ответов.
В целом, я бы сказал, что в зависимости от ваших данных ваш подход МОЖЕТ создать полезную прогностическую модель, но в целом вы должны действовать с осторожностью.
Прочитайте этот вопрос и некоторые ответы на него - в нем обсуждаются похожие темы https://stats.stackexchange.com/questions/3024/why-is-poisson-regression-used-for-count-data
Чтобы охватить более широкую аудиторию, вы можете разместить этот вопрос на http://stats.stackexchange.com/