Снежок Stemming: определение регионов

Я пытаюсь понять алгоритм снобала. Алгоритм использует две области R1 и R2, которые определены следующим образом:

R1 - это область после первого не гласного, следующего за гласным, или нулевая область в конце слова, если такого не существует.

R2 - это область после первого не-гласного, следующего за гласным в R1, или это нулевая область в конце слова, если такого не-гласного не существует.

http://snowball.tartarus.org/texts/r1r2.html

Примеры

    b   e   a   u   t   i   f   u   l
                      |<------------->|    R1
                              |<----->|    R2

   b   e   a   u   t   y
                     |<->|    R1
                       ->|<-  R2

   a   n   i   m   a   d   v   e   r   s   i   o   n
        |<----------------------------------------->|    R1
                |<--------------------------------->|    R2

   s   p   r   i   n   k   l   e   d
                     |<------------->|    R1
                                   ->|<-  R2

    e   u   c   h   a   r   i   s   t
            |<--------------------->|    R1
                        |<--------->|    R2

Мой вопрос таков: почему слово "kled" в спринклинге и слово "harist" в евхаристии определены как R1? Я думал, что правильный результат будет "запутан" и "арист"?

1 ответ

Решение

Вы должны прочитать определение снова, оно говорит:

R1 - регион после первого не гласного, следующего за гласным.

Не: с последующим гласным.

В sprinkledпервый не гласный после гласного n, так что регион после kled,

То же самое для eucharistпервый не гласный после гласного c, так что регион после harist,

Другие вопросы по тегам