Классифицировать вопросы клиентов на основе контента

Я работаю над веб-приложением, где пользователи могут задавать вопросы. Эти вопросы должны быть классифицированы по некоторым критериям, основанным на содержании вопроса, названии, пользовательских данных, регионе и так далее. Затем эти вопросы должны быть обработаны таким образом: для какой-то дополнительной информации должны быть отправлены запросы, другие должны быть удалены или помечены как спам, а некоторые - отправлены непосредственно какому-либо специалисту.

Проблема в том, что пользователи не могут сами выбрать правильную категорию, это довольно сложные вещи, и пользователи могут обманывать.

Есть ли подходы, как сделать это автоматически? На данный момент несколько человек занимаются фильтрацией вопросов. Возможно, некоторые уже готовые решения существуют.

1 ответ

Решение

Это действительно сложная задача. Вы должны взглянуть на контролируемые алгоритмы классификации машинного обучения. Вы можете попробовать использовать аналогичный алгоритм фильтрации спама ( https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering).

  1. Соберите некоторое количество вопросов, классифицированных ранее (помеченные как примеры).
  2. Соберите некоторое количество слов (словарный запас), используемых для классификации вопросов (укажите группу).
  3. Обработайте текст вопроса, удалив "стоп-слова", и замените слова их основами.
  4. Сопоставьте текст вопроса, заголовок, данные пользователя и т. Д. С некоторыми числами (вектор вопроса).
  5. Используйте некоторый алгоритм, такой как SVM, для создания и использования классификатора (модели)

Но это как очень общий подход, который вы можете посмотреть. Трудно сказать что-то более конкретное без дополнительных подробностей. Я не думаю, что вы можете найти уже готовое решение, это довольно специфическая задача. Но, разумеется, вы можете использовать множество систем машинного обучения.

Другие вопросы по тегам