Тенденции Твиттера с несколькими словами
Может кто-нибудь сказать мне, какой алгоритм Twitter.com использует для классификации тематических тем с несколькими словами? Проблема проста, если иметь дело только с трендами, имеющими только одно слово, например, "#SoulTrainAwards" или "#DontYouWish". Но это совершенно другая проблема, когда речь идет о трендах, состоящих из нескольких слов, например, "Кристет Мишель", "Счастливого Хэллоуина" или "Счастливого Рождества", поскольку слово в тренде из нескольких слов может быть другой другой тенденцией. Скажем, например, слово "Happy" или слово "Рождество" в одиночку.
1 ответ
Как отметили пользователи по этому вопросу, вы бы поделили сообщение на n-граммы. Я полагаю, что Твиттер использует не более 3-х слов по актуальной теме, поэтому сообщение
Кошка съела еду.
приведет к следующим пунктам
- Кот ел
- кот съел
- съел еду
- Кот
- кот ел
- съел
- еда
- кошка
- съел
- питание
Затем, я полагаю, он использует эти данные в качестве входных данных для своего рода алгоритма потоковой передачи, который будет возвращать наиболее частые элементы.