Тенденции Твиттера с несколькими словами

Может кто-нибудь сказать мне, какой алгоритм Twitter.com использует для классификации тематических тем с несколькими словами? Проблема проста, если иметь дело только с трендами, имеющими только одно слово, например, "#SoulTrainAwards" или "#DontYouWish". Но это совершенно другая проблема, когда речь идет о трендах, состоящих из нескольких слов, например, "Кристет Мишель", "Счастливого Хэллоуина" или "Счастливого Рождества", поскольку слово в тренде из нескольких слов может быть другой другой тенденцией. Скажем, например, слово "Happy" или слово "Рождество" в одиночку.

1 ответ

Решение

Как отметили пользователи по этому вопросу, вы бы поделили сообщение на n-граммы. Я полагаю, что Твиттер использует не более 3-х слов по актуальной теме, поэтому сообщение

Кошка съела еду.

приведет к следующим пунктам

  • Кот ел
  • кот съел
  • съел еду
  • Кот
  • кот ел
  • съел
  • еда
  • кошка
  • съел
  • питание

Затем, я полагаю, он использует эти данные в качестве входных данных для своего рода алгоритма потоковой передачи, который будет возвращать наиболее частые элементы.

Другие вопросы по тегам