Семантическое соответствие для новой публикации на сайте с использованием НЛП
У меня есть проблема, когда разные разработчики программного обеспечения добавляют вопрос на сайт проверки интервью, и мне не нужно разрешать повторяющийся вопрос при добавлении нового. От неконтролируемого машинного обучения это должно ограничить разработчика, если они добавляют повторный вопрос на веб-сайте. Я знаю, что это не будет на 100% точным, но как можно ближе.
Изначально я пробовал разные способы использования алгоритмов Quora Duplicate Question Competition, но застрял в конце. Ниже приведены проблемные моменты:
а. У меня нет помеченных вопросов, которые предлагают дублировать или нет. б. Входная переменная для алгоритма будет только новым вопросом. с. Нужен способ найти повторяющийся вопрос или вопрос о ближайшем семантическом значении, доступный в базе данных.
Любая помощь или предложение будут высоко оценены.
Спасибо, Амит Лохани