Снежок Stemming: определение регионов
Я пытаюсь понять алгоритм снобала. Алгоритм использует две области R1 и R2, которые определены следующим образом:
R1 - это область после первого не гласного, следующего за гласным, или нулевая область в конце слова, если такого не существует.
R2 - это область после первого не-гласного, следующего за гласным в R1, или это нулевая область в конце слова, если такого не-гласного не существует.
Примеры
b e a u t i f u l
|<------------->| R1
|<----->| R2
b e a u t y
|<->| R1
->|<- R2
a n i m a d v e r s i o n
|<----------------------------------------->| R1
|<--------------------------------->| R2
s p r i n k l e d
|<------------->| R1
->|<- R2
e u c h a r i s t
|<--------------------->| R1
|<--------->| R2
Мой вопрос таков: почему слово "kled" в спринклинге и слово "harist" в евхаристии определены как R1? Я думал, что правильный результат будет "запутан" и "арист"?
1 ответ
Вы должны прочитать определение снова, оно говорит:
R1 - регион после первого не гласного, следующего за гласным.
Не: с последующим гласным.
В sprinkled
первый не гласный после гласного n
, так что регион после kled
,
То же самое для eucharist
первый не гласный после гласного c
, так что регион после harist
,