Классификация текста - использование стеммера ухудшает результаты?

Там есть статья об анализе настроений арабского языка.

В начале страницы 5 говорится, что:

"Эксперименты также показывают, что слова, стоящие перед выделением и классификацией признаков, почти всегда ухудшают результаты".

Позже на той же странице они заявляют, что:

"... и арабский лёгкий ударник используется для обозначения слов"

Гм, я думал, что перед классификацией текста всегда использовался стеммер / лемматизатор, почему он говорит, что это ухудшает результаты?

Спасибо:)

1 ответ

Решение

Я не знаю арабский язык, он может быть конкретным во многих отношениях, мой ответ касается английского.

Гм, я думал, что перед классификацией текста всегда использовался стеммер / лемматизатор, почему он говорит, что это ухудшает результаты?

Нет, это не так, в полной мере зависит от задачи. Если вы хотите извлечь какую-то общую концепцию текста, то использование стемтинга / лематизации - хороший шаг. Но при анализе коротких фрагментов, где каждое слово ценно, основание просто разрушает его значение. В частности, в анализе настроений может быть уничтожено чувство слова.

Другие вопросы по тегам