Что такое алгоритм "трендовых тем" для search.twitter.com?
Какой алгоритм использует твиттер для определения 10 тем, которые вы можете увидеть на http://search.twitter.com/? Я хотел бы реализовать этот алгоритм, и я также хотел бы показать 50 самых популярных тем (вместо 10). Можете ли вы описать наиболее эффективный алгоритм?
Спасибо!
(API Twitters можно найти по http://apiwiki.twitter.com/REST%20API%20Documentation)
Кроме того, я хотел бы иметь возможность реализовать алгоритм путем поиска по общедоступной временной шкале - http://twitter.com/statuses/public_timeline.rss
2 ответа
Алгоритм трендов в Twitter - это не просто количество ключевых слов. Это часть этого, но есть также и фактор распада, так что "Джастин Бибер" не будет самым популярным.
Этот пост на Quora подтверждает это. http://www.quora.com/Trending-Topics-Twitter/What-is-the-basis-of-Twitters-current-Trending-Topics-algorithm?q=trending+algorithm
Распад обычно выполняется с использованием относительного возраста сообщения в алгоритме, придавая больший вес новым темам / сообщениям / и т. д.
Итак, что, вероятно, делает Твиттер, он подсчитывает количество упоминаний определенного термина минус стоп-слова (стоп-слова, такие как: делай, я, ты, я, нет, и т. Д.) Так что "кот из сумки" и "мой собака съела мою кошку "означало бы, что слова" кошка, собака и сумка "будут теми терминами, которые она извлекла (все остальные - стоп-слова). Затем она считает" кошка "2-мя ссылками, поэтому в этом случае тема" кошка "будет самой популярной.,