Каков наилучший способ моделирования сходства документов между различными строковыми параметрами?

Question

Каков наилучший способ моделирования сходства документов между различными строковыми параметрами?

У меня проблема с предсказанием решений проблем, с которыми сталкиваются пользователи.

Проблема установки выглядит так:

У нас есть база данных проблем и решений. Для каждой задачи у нас есть три параметра для ее представления.

JobName (Строка - Имя работы)
JobId (целое число - идентификатор работы)
RootCause (String - причина этой проблемы).

Каждая проблема имеет соответствующее решение, добавленное тем пользователем, который столкнулся с этой проблемой. Этот параметр решения является

Решение (строка - решение, введенное пользователем для этой проблемы)

Поэтому мы хотели использовать эту базу данных и предсказать решения для новых проблем (проблема - это набор имени задания, идентификатора задания, rootcause - все это строки)

Мы изначально придумали это решение.Мы просто хотим идентифицировать проблемы (набор имени работы, jobid, rootcause), подобные нашей проблеме запроса, и дать решение ближайшей проблемы. Но в этом случае у нас нет никакого способа измерить ошибку обучения, как у нас в задачах прогнозирования цен на жилье.

В общем, как мы подходим к этой проблеме, и какие модели машинного обучения нам нужно использовать?

-1

python machine-learning modeling nlp-question-answering sentence-similarity

Источник

user4010017 06 ноя '18 в 07:00

1 ответ

Другие вопросы по тегам python machine-learning modeling nlp-question-answering sentence-similarity

user8609330 06 ноя '18 в 07:43 2018-11-06 07:43 · Answer 1 · 2018-11-06 07:43

Кажется, вы хотите построить своего рода систему рекомендаций. В зависимости от причины проблемы, предложите список рекомендуемых решений. Одно из возможных решений - использовать word2vec для векторизации RootCause а затем попытаться найти похожие проблемы, используя векторное сходство.