Обнаружение аномалий в текстовой классификации
Я построил классификатор текста, используя OneClassSVM.
У меня есть тренировочный набор, который соответствует только одной метке, т. Е. ("Да"), а у меня нет других ("НЕТ") данных метки. Моя задача - создать классификатор, который классифицирует новое невидимое предложение (данные теста) как 1, если оно очень похоже на данные обучения. Иначе оно классифицируется как -1, т. Е. (Аномалия).
Я использовал Word2Vec для создания встраивания слов для моих тренировочных данных. Затем я использую усреднение по вектору с OneClassSVM для построения классификатора аномального детектора.
Этот классификатор в настоящее время дает точность около 50%-55%. Я должен улучшить это, чтобы построить надежный классификатор.
Любые предложения по этой проблеме будут полезны...
1 ответ
Я бы предложил совсем другой подход, так как у вас нет тренировочных примеров для отрицательного класса вообще. Вы можете обучить языковой модели на ваших данных обучения. Во время вывода вы оцениваете входные данные с помощью языковой модели и классифицируете их в соответствии с некоторым порогом недоумения входного предложения в соответствии с LM.