Получение как можно большего количества твитов, связанных с тенденциями дня

Я храню в базе данных каждые 30 минут актуальные темы Твиттера страны Y. С этим проблем нет. Теперь я хочу получить как можно больше твитов, соответствующих этим актуальным темам в исследовательских целях.

Поскольку я хотел бы изучить закономерности трендов, мне бы хотелось, чтобы данные о твитах продолжались не менее 3 дней с центром в день обнаружения пика тренда для каждой темы трендов. Чтобы достичь этого, я подумал сделать следующее:

Предположим, я нахожусь в день X. Я мог бы извлечь уникальные тренды дня X-2, и для каждого тренда искать твиты, соответствующие тренду в интервале [X-3, X-1], то есть 3 дня. Однако проблема здесь заключается в ограничении скорости Twitter. Если в день X-2 у меня будет 100 трендовых тем и я сделаю 20 поисковых запросов / тенденций GET, я в итоге выполню 2 000 запросов, что превышает 350-часовой лимит Twitter. Если сделать 300 req/hour, это займет более 6 часов, чтобы получить данные только за один день...

Кто-нибудь знает какой-либо другой (лучший) способ получения твитов, связанных с тенденциями?

заранее спасибо

1 ответ

Twitter Streaming API?

Twitter Streaming API не доставляет прошлые твиты. Вы получаете твиты только с момента установления соединения с сервером. Поисковый API будет возвращать твиты, соответствующие текущему запросу, до 7 дней в теории, но это полностью зависит от текущей загрузки Twitter. (Примечание *- Временами этот интервал составлял всего 24 часа. Кроме того, вы ограничены возможностью получать до 1500 твитов независимо от того, сколько им лет.)

Есть ли способ получить больше твитов от потоковой передачи?

Ни то, что я знаю. Но обращайтесь к нижеприведенной информации, если вы планируете переключаться между поисковым или потоковым API.

Пожалуйста, выберите ваш случай:

  • Если вам нужны данные в реальном времени и количество запросов велико:

Go для потокового API

Для потокового API необходимо, чтобы соединение оставалось активным. Для этого требуется серверный процесс с бесконечным циклом, чтобы получать последние твиты.

преимущество

1) Задержка в получении результатов: твиты, доставленные с помощью этого метода, в основном в режиме реального времени, с задержкой не более секунды или двух между моментом публикации твита и его получением от API

2) Не ограничено

  • Если вам нужны сводные данные независимо от их временного диапазона и количества запросов, которые невелики:

Go для поиска API

API поиска является наиболее простым из двух реализуемых методов, но он ограничен по скорости. Каждый запрос будет возвращать до 100 твитов, и вы можете использовать параметр страницы для запроса до 15 страниц, что дает вам теоретический максимум 1500 твитов для один запрос.

преимущество

1) Поиск твитов в прошлом: API поиска по умолчанию выигрывает в этой области, потому что потоковый API не доставляет прошлые твиты

2) Легче реализовать

Другие вопросы по тегам