Машинное обучение без присмотра vs sentimentR

В настоящее время я использую sentimentR для обозначения политических текстов (150–400 слов), и пока что это не слишком хорошо (точность составляет около 50–60% в зависимости от того, насколько я щедр при чтении текстов). Кто-то порекомендовал мне заняться машинным обучением без присмотра (предлагая попробовать GP и / или нейронные сети).

Я не хочу изобретать велосипед здесь, поэтому мне интересно, концептуально, в чем разница между использованием подхода ML и SentimentR? Можно ли ожидать лучших результатов от первого и, если да, то насколько лучше (то есть рейтинг точности 60-70%)?

Спасибо

1 ответ

Работа с текстами требует очень надежных обучающих данных, которые хорошо маркированы. Неважно, что вы используете. Единственным плюсом использования нейронных сетей является то, что он способен лучше расшифровать отношения между словами, чем другие. Библиотеки как Stanford CoreNLP будет работать лучше из-за помеченных данных, которым они подвергаются. Документация sentimentR обеспечивает сравнение с Stanford CoreNLP, ссылка.

Что касается точности, то больше о том, насколько хорошо вы предварительно обработали свой текст перед использованием какой-либо библиотеки. Все эти шаги относятся к вашему набору данных, например stopwords список, чтобы вы не потеряли важные слова перед передачей в библиотеку.

Другие вопросы по тегам