Наивный байесовский классификатор модель Бернулли

Я работаю над классификацией счетов и чеков, и я буду работать с моделью Бернулли.

Это наивный байесовский классификатор:

P (c | x) = P(x | c) x P (c) / P (x)

Я знаю, как вычислить априорную вероятность класса P (c), и, поскольку мы предполагаем, что все слова независимы, нам не нужен P (x).

Теперь формула будет выглядеть так: P (c | x) = P(x | c) x P (c) и для вычисления P (x | c) мы используем метод вероятности, который вычисляет вероятность всех слов P (c | X) = P(x1|c)P(x2|c)*P(x3|c)....

Мой вопрос заключается в том, нужно ли после умножения вероятности умножить его на P (c) или нет, P (c | X) = P(x1|c)P(x2|c)*P(x3|c)... *ПК)?

1 ответ

Решение

P(c|x) не равно P(x|c) P(c), Это пропорционально, так как во время классификации вы делаете

cl(x) = arg max_c P(c|x) = arg max_c P(x|c) P(c) / P(x) = arg max_c P(x|c) P(c)

и это верно для любого распределения вероятностей, где P(x)>0Нет необходимости в каких-либо байесовских предположениях на данный момент. Это просто простая теорема Байеса + замечание, что P(x) это просто положительная константа в этом уравнении.

Таким образом, вы никогда не вычисляете P(c|x)Вы просто вычислите P(x|c) P(c) который даст вам ту же классификацию. Я надеюсь, что это показывает, что ваша классификация должна основываться на P(x|c) а также P(c)где, как вы указали P(x|c) = PROD_i P(x_i|c) (здесь мы используем наивное байесовское предположение о независимости, а не раньше).