Анализ настроений Google Prediction API

Я читаю об API Google Prediction и не могу найти часть документов.

Из вариантов использования я застрял немного в этой части:

Каждой строке может быть назначена только одна метка, но вы можете применить несколько меток к одному примеру, повторив пример и применив разные метки к каждой. Например: "взволнован", "Боже мой! Просто был сказочный день!" "раздражает", "О боже! Просто был сказочный день!" Если вы отправите твит этой модели, вы можете получить классификацию примерно так: "возбужденный":0,6, "раздражающий":0,2.

Зачем ему ставить "возбужденный":0,6, "раздражающий":0,2, в то время как больше нет функций на возбужденном. Почему взволнован предпочтение?

2 ответа

Решение

Дело не в том, что тег "возбужденный" является предпочтительным, а в том, что сообщение на самом деле следует классифицировать как "возбужденное", а не "раздраженное".

Предположим, у меня есть две классификации настроений: "бычий" и "медвежий". Затем я обучаю модель в API прогнозирования с четным количеством "бычьих" и "медвежьих" данных обучения. Когда я отправляю сообщение в API прогнозирования, чтобы получить мнение, оно читает текст и назначает вероятность как "бычью", так и "медвежьей" вероятности на основе слов в сообщении. Сумма вероятностей составит в сумме 1.

Опять же, дело не в том, что одна метка предпочтительнее другой, а вероятность того, что сообщение будет "возбуждено", в 3 раза больше, чем оно "раздражено".

Если вы обучаете модель только этим двум примерам, "взволнованным" и "надоедливым" ярлыкам для предложения "OMG! Просто был потрясающий день!", То единственно разумные результаты при запросе классификации для твита, подобного этому "OMG! Просто был сказочный день! должно быть "возбуждено":0,5, "раздражает":0,5.

Так что, вероятно, дело не совсем объяснено в документации Google. Я предполагаю, что они более сфокусированы, пытаясь объяснить, что можно связать 2 разных ярлыка с одним и тем же предложением.

Другие вопросы по тегам