Вопрос об алгоритме Портера Стеммера

Я реализую поисковое приложение. Корпус больших текстовых документов. Во время обработки файла я пишу все слова и вызываю алгоритм Porter Stemmer Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Step1 избавляется от множественного числа и -ed или -ing...

Я заметил, что такое слово, как "это", будет означать "thi".

Это нормальная работа алгоритма? Так как я хотел маркировать слово "это".

1 ответ

Решение

Из того, что вы описываете, моя догадка в том, что this рассматривается как форма множественного числа в алгоритме Портера Стеммера и сводится к thi,

Я не нахожу явной ссылки на не множественные слова, заканчивающиеся на s в газете Портера.

http://tartarus.org/~martin/PorterStemmer/def.txt

Другие вопросы по тегам