Каков наилучший способ моделирования сходства документов между различными строковыми параметрами?
У меня проблема с предсказанием решений проблем, с которыми сталкиваются пользователи.
Проблема установки выглядит так:
У нас есть база данных проблем и решений. Для каждой задачи у нас есть три параметра для ее представления.
- JobName (Строка - Имя работы)
- JobId (целое число - идентификатор работы)
- RootCause (String - причина этой проблемы).
Каждая проблема имеет соответствующее решение, добавленное тем пользователем, который столкнулся с этой проблемой. Этот параметр решения является
- Решение (строка - решение, введенное пользователем для этой проблемы)
Поэтому мы хотели использовать эту базу данных и предсказать решения для новых проблем (проблема - это набор имени задания, идентификатора задания, rootcause - все это строки)
Мы изначально придумали это решение.Мы просто хотим идентифицировать проблемы (набор имени работы, jobid, rootcause), подобные нашей проблеме запроса, и дать решение ближайшей проблемы. Но в этом случае у нас нет никакого способа измерить ошибку обучения, как у нас в задачах прогнозирования цен на жилье.
В общем, как мы подходим к этой проблеме, и какие модели машинного обучения нам нужно использовать?
1 ответ
Кажется, вы хотите построить своего рода систему рекомендаций. В зависимости от причины проблемы, предложите список рекомендуемых решений. Одно из возможных решений - использовать word2vec для векторизации RootCause
а затем попытаться найти похожие проблемы, используя векторное сходство.