Алгоритм стемминга
У меня есть вопрос об алгоритме Портера Стеммера, я исследовал в Интернете,
но я не мог найти, в чем разница между неполным и чрезмерным.
и является ли алгоритм Портера недостаточным или чрезмерным?
у тебя есть идея?
заранее спасибо
1 ответ
Перепутывание происходит, когда обрезанный суффикс слишком длинный, что приводит к ложному сопоставлению несвязанных слов.
Понимание противоположное - например, стеммер, который не отсекает ничего по своей сути.
Я подозреваю, что Портер Стеммер время от времени будет делать оба типа ошибок для английского языка. Обратите внимание, что реализации для других языков могут вести себя очень по-разному (говоря о Snowball, который имеет предоставленные пользователем алгоритмы для множества языков). Они могут даже отличаться в лингвистическом определении ствола.