Схема классификации текста для задачи классификации с 120 классами

У меня есть около 15 тыс. Текстовых экземпляров, которые вручную подразделяются на одну из 120 категорий. Текстовые фрагменты являются электронными письмами от клиентов. Частота занятий варьируется от 1 до 2000. Я хотел бы обучить классификатор на этих данных, чтобы последующие электронные письма могли быть классифицированы автоматически.

Я пробовал наивный метод Байеса и SVM, но сообщаю, что процент правильно классифицированных случаев составляет 51% и 57% соответственно. Я использовал stemmer, удалил стоп-слова и изменил текст в нижний регистр.

Я уверен, что к такой задаче классификации текста с большим количеством категорий и неравномерным распределением нужно подходить по-разному, но я не могу найти какую-либо ссылку для такого случая... Какие-нибудь рекомендации?

Заранее спасибо!

1 ответ

Решение

Я предполагаю, что классы не перекрываются (то есть ровно один класс на сообщение).

Полезный подход в случае несбалансированных классов заключается в использовании асимметричных затрат на классификацию мисс для того, чтобы заставить классификатор сосредоточиться на менее представленном классе, поскольку его стоимости присваивается гораздо большая цифра, чем в других классах.

Это относительно легко сделать в WEKA (см., Например, несбалансированное распределение классов и обучение, учитывающее стоимость WEKA) в случае двоичных классификаторов, но гораздо сложнее настроить его в случае 120 классов. Следовательно, один из подходов состоит в том, чтобы превратить эту проблему в 120 бинарных задач (один против другого) и установить соответствующие матрицы затрат для каждой проблемы.

По моему опыту, более жизнеспособной альтернативой, учитывая большое количество классов, является сведение редких классов в более крупные. other класс Это кажется более полезным для практических целей; есть "другая" папка, которую должен проверить специалист-человек, в то время как в большинстве случаев классификатор правильно присваивает электронные письма остальным классам - вполне заполненным -.

В заключение отметим, что точность около 50-60% может быть неплохой, в зависимости от распределения классов. Например, классификатор большинства (тот, который назначает каждый экземпляр наиболее заполненному классу) в 99%-1% будет с точностью 99%; однако это абсолютно бесполезно, потому что оно пропускает интересные примеры. В реальной жизни это происходит при фильтрации спама в электронной почте, мошенничестве и многих других доменах.

Другие вопросы по тегам