Куски документов для проверки на плагиат
Я строю проверку плагиата для текстовых файлов. Я сделал все, что нужно для предварительной обработки (удаление стоп-слов, прохождение текста и т. Д.) И построил свой индекс. и отфильтрованные результаты. система почти готова. Я разбил на части корпус и пользовательский документ по предложениям (разделители предложений.?!), Когда я протестировал результаты, и заметил, что метод разбиения на фрагменты (по предложениям) не является мощным, поскольку пользователь может изменить пунктуацию, чтобы обмануть мой сервис. Я читал много статей о чанкинге, лучший способ - перекрытие K-слов, что означает деление на количество слов с перекрытием. Мой вопрос заключается в том, как вычислить сходство в этом случае между чанком пользователя и чаем корпуса, потому что перекрывающиеся слова максимизируют сходство.
Пример: (игнорируя прохождение и удаление стоп-слова) здесь количество слов = 4, перекрытие = 1 слово (может быть изменено)
пользовательское предложение = Как я могу найти похожие предложения в вашем корпусе.
куски = как я могу найти, могу ли я найти похожие, найти похожие предложения, найти похожие предложения, похожие предложения в вашем, предложения в вашем корпусе.
Теперь, когда я проверяю эти чанки на корпусе (пусть корпус имеет чанк, говорит: Как я могу найти), вы замечаете, что чанки пользователя (как я могу найти, могу ли я найти похожие) имеют сходство с чанком корпуса, но оба чанка пользователя избыточны. Так как я могу устранить эту избыточность, извините за длинное объяснение.