Классификация текста - использование стеммера ухудшает результаты?
Там есть статья об анализе настроений арабского языка.
В начале страницы 5 говорится, что:
"Эксперименты также показывают, что слова, стоящие перед выделением и классификацией признаков, почти всегда ухудшают результаты".
Позже на той же странице они заявляют, что:
"... и арабский лёгкий ударник используется для обозначения слов"
Гм, я думал, что перед классификацией текста всегда использовался стеммер / лемматизатор, почему он говорит, что это ухудшает результаты?
Спасибо:)
1 ответ
Я не знаю арабский язык, он может быть конкретным во многих отношениях, мой ответ касается английского.
Гм, я думал, что перед классификацией текста всегда использовался стеммер / лемматизатор, почему он говорит, что это ухудшает результаты?
Нет, это не так, в полной мере зависит от задачи. Если вы хотите извлечь какую-то общую концепцию текста, то использование стемтинга / лематизации - хороший шаг. Но при анализе коротких фрагментов, где каждое слово ценно, основание просто разрушает его значение. В частности, в анализе настроений может быть уничтожено чувство слова.