Как рассчитывается полярность для предложения??? (в анализе настроений)
Как рассчитывается полярность слов в утверждении.... вроде
"Я успешно справился с задачей, но напрасно"
как оценивается каждое слово? (вроде - успешно- 0,7 - 0,8, но - -0,5 - - 0,8) как рассчитывается? как каждому слову присваивается значение или оценка?? что за вещь, что происходит позади? Поскольку я занимаюсь анализом настроений, у меня мало что проясняется, поэтому было бы здорово, если бы кто-то помог. Спасибо заранее
2 ответа
Если вы хотите использовать Python и NLTK, посмотрите Vader ( http://www.nltk.org/howto/sentiment.html и перейдите к разделу Vader).
Баллы по отдельным словам могут поступать из предопределенных списков слов, таких как ANEW, General Inquirer, SentiWordNet, LabMT или мой AFINN. Их оценивали либо отдельные эксперты, либо студенты, либо работники Amazon Mechanical Turk. Очевидно, что эти оценки не являются окончательной истиной.
Оценка слов также может быть рассчитана путем контролируемого обучения с аннотированными текстами, или оценки слов могут быть оценены по онтологиям слов или шаблонам совместного появления.
Что касается объединения отдельных слов, существуют различные способы. Один способ состоит в суммировании всех индивидуальных баллов (валентностей), другой - в определении максимальной валентности среди слов, третий - в нормализации (делении) по количеству слов или по количеству набранных слов (т.е. получению среднего балла).), - или разделите квадратный корень из этого числа. Результаты могут немного отличаться. Я сделал некоторую оценку со своим списком слов AFINN: http://www2.imm.dtu.dk/pubdb/views/edoc_download.php/6028/pdf/imm6028.pdf
Другой подход - с рекурсивными моделями, такими как модели Ричарда Сочера. Значения настроения отдельных слов агрегируются в древовидную структуру и должны найти, что "но тщетно"-часть вашего примера должна нести наибольший вес.