Что означает альфа в контексте функции сокращения получения информации?

В пакете PST мы используем значение C в качестве отсечения для функции получения информации, используемой для обрезки дерева. C Значение для альфа 0,05 рассчитывается следующим образом:

C95 <- qchisq(0.95, 1) / 2

Что это значит, что C значение основано на альфа 0,05? Означает ли это, что мы должны быть по крайней мере на 95% уверены, что дополнительный узел добавляет больше информации по сравнению с предыдущими узлами, чтобы его мог сохранить алгоритм сокращения?

1 ответ

Решение

Ваш вопрос касается использования gain="G2" в prune функция и о выборе порога C для этой функции усиления.

Дважды функция усиления G2, используемая для проверки того, может ли быть удалена ветвь, на самом деле является статистикой теста отношения правдоподобия, которая сравнивает вероятность дерева до и после сокращения ветвления. Статистика 2*G2 имеет распределение хи-квадрат при условии, что тестируемая ветвь не добавляет никакой информации. Таким образом, ветвление сокращается, когда разница не является статистически значимой, т. Е. До тех пор, пока значение G2 не превышает пороговое значение для данного уровня значимости.

Альфа - это обычный уровень значимости, используемый в статистических тестах. Обычно это 1% или 5%. Выбор альфа = 0,05 означает, что есть вероятность 5% ошибочно НЕ обрезать ветвь из-за случайности выборки.

Другие вопросы по тегам