Как рассчитывается оценка настроения в пакете R SentimentAnalysis?
Я использую словарь General Inquirer с пакетом SentimentAnalysis, и я не могу понять, как они назначают оценку настроения...
Например, если я запускаю следующий код:
sentiment <- analyzeSentiment(sampledf)
summary(sentiment$SentimentGI)
Я получу вывод, как это:
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.80000 -0.16667 -0.07692 -0.07313 0.00000 0.66667
Какой масштаб используется здесь? -1 к 1? Я не знаю, как интерпретировать эти результаты.
Спасибо!
1 ответ
Все связанные с настроением оценки рассчитываются по формуле
(#positive - #negative) / #all
где #positive
относится к числу положительных слов, #negative
на количество отрицательных слов и #all
к общему количеству слов. Следовательно, оценка настроения происходит из интервала [-1, +1]. Значение 0
указывает, что в документе столько же положительных, сколько отрицательных слов.
NB: На практике эмпирическое среднее значение / медиана не обязательно находится точно в нуле, так как положительное / отрицательное воспринимается сильнее или даже кажется более частым. Следовательно, предпочтительнее выбрать другую точку отсечения, чтобы отличить положительное от отрицательного.
Другие оценки следующие:
- Негативность или позитивность учитывают только соотношение отрицательных или положительных слов соответственно. Следовательно, это значение задается, например,
#negative / #all
и находится в [0, 1]. - Полярность использует формулу
(#positive - #negative) / (#positive + #negative)
, - Соотношение доля словарных выражений, т.е.
(#positive + #negative) / #all
,