Алгоритм C# для N-граммы
Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы:
t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d
для текста the quick red
Однако википедия считает, что это должно быть так:
the qui k_r
he_ uic _re
e_q ick red
_qu ck_
(пробел обозначен '_').
Что правильно? Есть ли другая реализация C# там?
2 ответа
Решение
Второй пример верен.
пс. Почему вы генерируете триграммы для всего текста, а не только для слов? Какой у вас вариант использования?
Первое правильно. Я использую символьную N-грамм в своей диссертации. Вы должны двигаться вперед и передавать один символ за каждый шаг. В этом состоянии можно найти похожие слова.