Алгоритм стемминга

У меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,

но я не мог найти, в чем разница между неполным и чрезмерным.

и является ли алгоритм Портера недостаточным или чрезмерным?

у тебя есть идея?

заранее спасибо

1 ответ

Перепутывание происходит, когда обрезанный суффикс слишком длинный, что приводит к ложному сопоставлению несвязанных слов.

Понимание противоположное - например, стеммер, который не отсекает ничего по своей сути.

Я подозреваю, что Портер Стеммер время от времени будет делать оба типа ошибок для английского языка. Обратите внимание, что реализации для других языков могут вести себя очень по-разному (говоря о Snowball, который имеет предоставленные пользователем алгоритмы для множества языков). Они могут даже отличаться в лингвистическом определении ствола.

Другие вопросы по тегам