Будет ли Word2Vec более эффективным для обнаружения текстового плагиата, чем WordNet или любые другие вложения слов, такие как GloVe, fastText и т. Д.?
Я новичок в изучении Word2Vec и только начал изучать Word2vec из Интернета. Я прошел почти все вопросы в Quora и Stackru, но нигде не получил ответ от предыдущих вопросов. Поэтому мой вопрос: 1. Возможно ли применить word2vec для обнаружения плагиата? 2. Если нет. 1 возможно, тогда будет ли Word2Vec более эффективным в обнаружении плагиата на основе текста, чем WordNet или любые другие вложения слов, такие как GloVe, fastText и т. Д.? Заранее спасибо.
1 ответ
Да, эти "плотные вложения" модели значения слова, такие как word2vec, могут быть полезны при обнаружении плагиата. (Они также, вероятно, полезны для запутывания плагиата от простых детекторов, так как они могут помочь автоматизированным преобразованиям существующего текста, которые изменяют слова, сохраняя значение аналогичным.)
Только путем тестирования в конкретной системе и в отношении количественных оценок вы сможете точно знать, насколько хорошо она может работать, или же конкретное вложение лучше или хуже, чем что-то вроде WordNet.
Среди word2vec, fastttext и GloVE результаты, вероятно, будут очень схожими - все они используют примерно одинаковую информацию (совпадения слов в скользящем контекстном окне) для создания максимально предсказательных векторов слов - поэтому они ведут себя очень схожим образом с подобным обучением данные.
Любые различия незначительны - варианты без GLoVe могут работать лучше для очень больших словарей; fasttext, по сути, является word2vec в некоторых режимах, но добавляет новые опции либо для моделирования подграмм ngram (которые затем могут помочь в создании векторов лучше, чем случайных для будущих слов из словаря), либо для оптимизации векторов для задач классификации.
Но векторы для известных слов, которые могут быть обучены с обильными данными обучения, будут очень похожими по возможностям, если процессы обучения аналогично мета-оптимизированы для вашей задачи.