Предложения по настроению

Question

Предложения по настроению

Давайте начнем с простой проблемы. Допустим, у меня есть предложение в 350 символов, и я хотел бы поместить это предложение в корзину "Хорошего настроения" или "Плохое настроение".

Каков наилучший способ разработать алгоритм для объединения предложения?

5

algorithm nlp sentiment-analysis document-classification

Источник

user382906 29 июл '11 в 08:00

6 ответов

Другие вопросы по тегам algorithm nlp sentiment-analysis document-classification

user584347 29 июл '11 в 08:10 2011-07-29 08:10 · Answer 1 · 2011-07-29 08:10

Вручную классифицировать кучу предложений по настроению. Затем накормите их в наивный байесовский классификатор. Используйте что-то вроде SpamBayes в качестве отправной точки.

5

Источник

user584347 29 июл '11 в 08:10

user518804 08 сен '11 в 08:21 2011-09-08 08:21 · Answer 2 · 2011-09-08 08:21

В зависимости от области предложений и требуемой точности это может быть чрезвычайно сложной проблемой. Есть много научных работ по анализу настроений; хорошее начало может быть здесь - короткая и классическая газета.

Шаги, которые я бы посоветовал предпринять, постепенно приведут к более качественному классификатору:

Руки классифицируют некоторые документы и используют их для обучения готового алгоритма. Я бы предложил использовать SVM (например, с помощью LibSVM в WEKA или SVMLight), но наивный байес или деревья решений, как предложено выше, также могут работать.
Вручную классифицируйте еще несколько документов и перейдите от модели, основанной на униграмме, к более сложной, например, к биграмме или частям речи. Это можно сделать довольно легко с помощью инструментов TagHelper, которые возьмут ваши тексты и преобразуют их в файлы, готовые к WEKA, используя эти приемы. Это добавит некоторый контекст к настроению каждого термина (например, "не" и "плохо" против "не плохо").
Наконец, вы можете добавить пользовательские правила и словари, которые добавят специфичные для предметной области знания в ваш алгоритм. Они могут быть представлены как дополнительные функции для того же механизма классификации или как дополнительный этап классификации.

user18774 29 июл '11 в 08:13 2011-07-29 08:13 · Answer 3 · 2011-07-29 08:13

Простым / наивным предложением было бы либо сначала разбить каждое предложение на отдельные слова, либо использовать регулярное выражение и отсканировать конкретные слова из обоих "положительных" списков (например, "как", "счастливый", "может", "сделать"). "и т. д.) и" отрицательный "список (" неприязнь "," грустный "," не могу "," нет "), который определяет, что более распространено в каждом предложении, и соответствующим образом ограничьте его.

В зависимости от ваших требований и набора данных это может быть достаточно, или вы можете захотеть исследовать более продвинутые методы, такие как байесовская фильтрация.

user12030 09 сен '11 в 01:25 2011-09-09 01:25 · Answer 4 · 2011-09-09 01:25

Это называется анализ настроений, и статья в Википедии содержит хорошее описание доступных методов. Одним из простых способов было бы использовать Google Prediction API и обучить его набору положительных, отрицательных и нейтральных предложений.

1

Источник

user12030 09 сен '11 в 01:25

user177931 29 июл '11 в 18:14 2011-07-29 18:14 · Answer 5 · 2011-07-29 18:14

Вы можете поиграть с инструментом Weka, чтобы обучить некоторый классификатор, который будет хорошо работать в вашем случае. Я бы порекомендовал попробовать алгоритм J48, который, по моему мнению, является реализацией алгоритма C4.5 для обучения деревьев решений.

0

Источник

user177931 29 июл '11 в 18:14

user158328 29 июл '11 в 19:15 2011-07-29 19:15 · Answer 6 · 2011-07-29 19:15

Попробуйте машинное обучение из множества таких предложений. Используйте некоторые функции, например, смайлики в качестве индикаторов настроения. Наблюдайте за качеством и добавляйте / изменяйте свой набор функций.

0

Источник

user158328 29 июл '11 в 19:15