Классифицировать вопросы клиентов на основе контента
Я работаю над веб-приложением, где пользователи могут задавать вопросы. Эти вопросы должны быть классифицированы по некоторым критериям, основанным на содержании вопроса, названии, пользовательских данных, регионе и так далее. Затем эти вопросы должны быть обработаны таким образом: для какой-то дополнительной информации должны быть отправлены запросы, другие должны быть удалены или помечены как спам, а некоторые - отправлены непосредственно какому-либо специалисту.
Проблема в том, что пользователи не могут сами выбрать правильную категорию, это довольно сложные вещи, и пользователи могут обманывать.
Есть ли подходы, как сделать это автоматически? На данный момент несколько человек занимаются фильтрацией вопросов. Возможно, некоторые уже готовые решения существуют.
1 ответ
Это действительно сложная задача. Вы должны взглянуть на контролируемые алгоритмы классификации машинного обучения. Вы можете попробовать использовать аналогичный алгоритм фильтрации спама ( https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering).
- Соберите некоторое количество вопросов, классифицированных ранее (помеченные как примеры).
- Соберите некоторое количество слов (словарный запас), используемых для классификации вопросов (укажите группу).
- Обработайте текст вопроса, удалив "стоп-слова", и замените слова их основами.
- Сопоставьте текст вопроса, заголовок, данные пользователя и т. Д. С некоторыми числами (вектор вопроса).
- Используйте некоторый алгоритм, такой как SVM, для создания и использования классификатора (модели)
Но это как очень общий подход, который вы можете посмотреть. Трудно сказать что-то более конкретное без дополнительных подробностей. Я не думаю, что вы можете найти уже готовое решение, это довольно специфическая задача. Но, разумеется, вы можете использовать множество систем машинного обучения.