Обнаружение аномалий в текстовой классификации

Я построил классификатор текста, используя OneClassSVM.

У меня есть тренировочный набор, который соответствует только одной метке, т. Е. ("Да"), а у меня нет других ("НЕТ") данных метки. Моя задача - создать классификатор, который классифицирует новое невидимое предложение (данные теста) как 1, если оно очень похоже на данные обучения. Иначе оно классифицируется как -1, т. Е. (Аномалия).

Я использовал Word2Vec для создания встраивания слов для моих тренировочных данных. Затем я использую усреднение по вектору с OneClassSVM для построения классификатора аномального детектора.

Этот классификатор в настоящее время дает точность около 50%-55%. Я должен улучшить это, чтобы построить надежный классификатор.

Любые предложения по этой проблеме будут полезны...

1 ответ

Я бы предложил совсем другой подход, так как у вас нет тренировочных примеров для отрицательного класса вообще. Вы можете обучить языковой модели на ваших данных обучения. Во время вывода вы оцениваете входные данные с помощью языковой модели и классифицируете их в соответствии с некоторым порогом недоумения входного предложения в соответствии с LM.

Другие вопросы по тегам