Алгоритм C# для N-граммы

Я собираюсь использовать n-граммовый код из этой статьи. Алгоритм дает следующие результаты триграммы:

t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d

для текста the quick red

Однако википедия считает, что это должно быть так:

the  qui  k_r
he_  uic  _re
e_q  ick  red
_qu  ck_

(пробел обозначен '_').

Что правильно? Есть ли другая реализация C# там?

2 ответа

Решение

Второй пример верен.

пс. Почему вы генерируете триграммы для всего текста, а не только для слов? Какой у вас вариант использования?

Первое правильно. Я использую символьную N-грамм в своей диссертации. Вы должны двигаться вперед и передавать один символ за каждый шаг. В этом состоянии можно найти похожие слова.

Другие вопросы по тегам