Наивный байесовский классификатор модель Бернулли
Я работаю над классификацией счетов и чеков, и я буду работать с моделью Бернулли.
Это наивный байесовский классификатор:
P (c | x) = P(x | c) x P (c) / P (x)
Я знаю, как вычислить априорную вероятность класса P (c), и, поскольку мы предполагаем, что все слова независимы, нам не нужен P (x).
Теперь формула будет выглядеть так: P (c | x) = P(x | c) x P (c) и для вычисления P (x | c) мы используем метод вероятности, который вычисляет вероятность всех слов P (c | X) = P(x1|c)P(x2|c)*P(x3|c)....
Мой вопрос заключается в том, нужно ли после умножения вероятности умножить его на P (c) или нет, P (c | X) = P(x1|c)P(x2|c)*P(x3|c)... *ПК)?
1 ответ
P(c|x)
не равно P(x|c) P(c)
, Это пропорционально, так как во время классификации вы делаете
cl(x) = arg max_c P(c|x) = arg max_c P(x|c) P(c) / P(x) = arg max_c P(x|c) P(c)
и это верно для любого распределения вероятностей, где P(x)>0
Нет необходимости в каких-либо байесовских предположениях на данный момент. Это просто простая теорема Байеса + замечание, что P(x)
это просто положительная константа в этом уравнении.
Таким образом, вы никогда не вычисляете P(c|x)
Вы просто вычислите P(x|c) P(c)
который даст вам ту же классификацию. Я надеюсь, что это показывает, что ваша классификация должна основываться на P(x|c)
а также P(c)
где, как вы указали P(x|c) = PROD_i P(x_i|c)
(здесь мы используем наивное байесовское предположение о независимости, а не раньше).