Семантический анализ твитов

Я знаю, как общаться с твиттером и как получать твиты, но я ищу дальнейшую работу над этими твитами.

У меня есть две категории еды и спорта. Теперь я хочу разделить твиты на еду и спорт. Может кто-нибудь предложить мне, как классифицировать на основе компьютерного алгоритма?

С уважением Гаурав

2 ответа

Решение

Недавно я занимался какой-то работой с распределением скрытого дирихле. Общая идея состоит в том, что документы содержат слова, которые генерируются из тем. То, что вы могли бы попытаться сделать, - это загрузить пакет документов, которые, как известно, посвящены интересующим вас темам, обновить их интересующими твитами, а затем выбрать твиты с высокой вероятностью для тех же тем, что и ваши известные документы.

Я использую R для LDA (package:topicmodels и package:lda), но я думаю, что для этого тоже есть несколько готовых инструментов python. Я бы, вероятно, уклонился от попыток написать свою собственную, если у вас нет надежных оснований в байесовской статистике.

Вот документация для пакета topicmodels: http://cran.r-project.org/web/packages/topicmodels/vignettes/topicmodels.pdf

Я сомневаюсь, что набор алгоритмов мог бы классифицировать твиты в открытой области. Другими словами, я не думаю, что набор правил может классифицировать твиты открытого домена. Вам нужно разобрать твиты в семантическое представление, настроенное для категоризации.

Другие вопросы по тегам