Вопрос об алгоритме Портера Стеммера
Я реализую поисковое приложение. Корпус больших текстовых документов. Во время обработки файла я пишу все слова и вызываю алгоритм Porter Stemmer Step1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).
Step1 избавляется от множественного числа и -ed или -ing...
Я заметил, что такое слово, как "это", будет означать "thi".
Это нормальная работа алгоритма? Так как я хотел маркировать слово "это".
1 ответ
Решение
Из того, что вы описываете, моя догадка в том, что this
рассматривается как форма множественного числа в алгоритме Портера Стеммера и сводится к thi
,
Я не нахожу явной ссылки на не множественные слова, заканчивающиеся на s
в газете Портера.