Почему мы выбираем бета-распределение в качестве предварительной гипотезы?

Я видел видео по классу машинного обучения, конечно, 10-701 год 2011 года Тома Митчелла в КМУ. Он преподавал на тему "Оценка максимального правдоподобия", когда использовал бета-дистрибутив, как и ранее, тета. Интересно, он выбрал только это?

Это скриншот лекции

1 ответ

В этой лекции профессор Митчелл приводит пример подбрасывания монеты и оценки ее справедливости, то есть вероятности головы - тета. Он разумно выбрал биномиальное распределение для этого эксперимента.

Причиной выбора бета-распределения для упрощения является упрощение математики при вычислении апостериорного. Это хорошо работает, потому что бета является сопряженным предшествующим для биномиального - в самом конце той же лекции это упоминается. Это не означает, что нельзя использовать какой-либо другой априор, например, нормальный, Пуассона и т. Д. Но другие априоры приводят к сложным апостериорным распределениям, которые трудно оптимизировать, вычислить интеграл и т. Д.

Это общий принцип: предпочитайте конъюгат перед более сложными распределениями, даже если он не точно соответствует данным, потому что математика проще.

Другие вопросы по тегам