Как рассчитывается оценка настроения в пакете R SentimentAnalysis?

Я использую словарь General Inquirer с пакетом SentimentAnalysis, и я не могу понять, как они назначают оценку настроения...

Например, если я запускаю следующий код:

sentiment <- analyzeSentiment(sampledf)

summary(sentiment$SentimentGI)

Я получу вывод, как это:

Min.      1st Qu.   Median     Mean      3rd Qu.     Max. 

-0.80000  -0.16667  -0.07692   -0.07313  0.00000     0.66667

Какой масштаб используется здесь? -1 к 1? Я не знаю, как интерпретировать эти результаты.

Спасибо!

1 ответ

Все связанные с настроением оценки рассчитываются по формуле

(#positive - #negative) / #all

где #positive относится к числу положительных слов, #negative на количество отрицательных слов и #all к общему количеству слов. Следовательно, оценка настроения происходит из интервала [-1, +1]. Значение 0 указывает, что в документе столько же положительных, сколько отрицательных слов.

NB: На практике эмпирическое среднее значение / медиана не обязательно находится точно в нуле, так как положительное / отрицательное воспринимается сильнее или даже кажется более частым. Следовательно, предпочтительнее выбрать другую точку отсечения, чтобы отличить положительное от отрицательного.

Другие оценки следующие:

  • Негативность или позитивность учитывают только соотношение отрицательных или положительных слов соответственно. Следовательно, это значение задается, например, #negative / #all и находится в [0, 1].
  • Полярность использует формулу (#positive - #negative) / (#positive + #negative),
  • Соотношение доля словарных выражений, т.е. (#positive + #negative) / #all,
Другие вопросы по тегам