Каков наилучший способ моделирования сходства документов между различными строковыми параметрами?

У меня проблема с предсказанием решений проблем, с которыми сталкиваются пользователи.

Проблема установки выглядит так:

У нас есть база данных проблем и решений. Для каждой задачи у нас есть три параметра для ее представления.

  1. JobName (Строка - Имя работы)
  2. JobId (целое число - идентификатор работы)
  3. RootCause (String - причина этой проблемы).

Каждая проблема имеет соответствующее решение, добавленное тем пользователем, который столкнулся с этой проблемой. Этот параметр решения является

  1. Решение (строка - решение, введенное пользователем для этой проблемы)

Поэтому мы хотели использовать эту базу данных и предсказать решения для новых проблем (проблема - это набор имени задания, идентификатора задания, rootcause - все это строки)

Мы изначально придумали это решение.Мы просто хотим идентифицировать проблемы (набор имени работы, jobid, rootcause), подобные нашей проблеме запроса, и дать решение ближайшей проблемы. Но в этом случае у нас нет никакого способа измерить ошибку обучения, как у нас в задачах прогнозирования цен на жилье.

В общем, как мы подходим к этой проблеме, и какие модели машинного обучения нам нужно использовать?

1 ответ

Кажется, вы хотите построить своего рода систему рекомендаций. В зависимости от причины проблемы, предложите список рекомендуемых решений. Одно из возможных решений - использовать word2vec для векторизации RootCause а затем попытаться найти похожие проблемы, используя векторное сходство.

Другие вопросы по тегам