Получение исторических данных из Twitter

Для исследовательского проекта я хотел бы получать сообщения Twitter за последние 3 месяца. Помимо технических проблем, возможно ли это? используя какой-то механизм медленного опроса, чтобы ограничить скорость?

API Twitter заявляет: "Клиенты могут запрашивать до 3200 статусов через страницу и рассчитывать параметры для шкалы времени REST API". Это в час? В день? или... когда-нибудь?

Какие-либо предложения? Было бы это даже теоретически возможно? Кто-то делал что-то подобное раньше?

Спасибо! Marco

7 ответов

Решение

Twitter, как известно, не делает "доступными" твиты старше трех недель. В некоторых случаях вы можете получить только одну неделю. Вам лучше хранить твиты в течение следующих трех месяцев. Многие справедливо сомневаются в том, что они даже сохраняются в Твиттере.

Вы ищете только твиты? Если это так, проверьте метод / пример метода Streaming API. Потоковый API использует постоянные HTTP-сокеты, которые могут быть болезненными для программирования, но они довольно изящны, когда вы работаете. Я бы порекомендовал установить небольшой скрипт для выгрузки твитов из статуса / образца в БД. Вы должны иметь ТОННУ данных через несколько дней.

Вы можете использовать API поиска, не предлагая ему поиск, возвращая максимум 100 на страницу, а затем просматривая каждую страницу два раза в минуту (120 раз в час - в 30 раз меньше, чем ограничение скорости). Однако, если моя математика верна, это может дать вам 720 000 твитов в час... проблема в том, что Twitter добавил примерно 1,75 млрд твитов за последние 3 месяца. Так что, если моя математика верна, вам понадобится 2361 день или 6 лет, чтобы завершить это.

Вы можете задать этот вопрос во время обсуждения в Твиттере по группам Google или связаться с Twitter, чтобы получить белый список, чтобы вы могли выполнять до 20 000 запросов в час.

Лично я не думаю, что это возможно.

DataSift утверждает, что скоро появится API данных в Твиттере, вы можете зарегистрироваться, чтобы получить уведомление, когда оно будет доступно здесь.

Keyhole может получить исторические твиты в xls или представить их на визуальной панели. В предварительном просмотре представлены только несколько последних твитов, однако вы можете запросить исторические данные, если отправите им электронное письмо.

Смотрите: http://keyhole.co/conversation_tracking

Вы можете читать исторические данные из Twitter, используя инструмент Gnip Historic PowerTrack. Это даст вам доступ ко всем данным твиттера с момента первого твита, и это довольно простой инструмент.

Возможно, этого не было, когда вы впервые задали вопрос, но API PeopleBrowsr идеально подходит для этого, и вы можете вернуться назад на 1400 дней с помощью одного вызова API: https://developer.peoplebrowsr.com/pb

Надеюсь, это поможет!

Вы можете получить бесплатные оценки объема данных и стоимости, используя сервис, разработанный моей компанией под названием Sifter. Если вы решите приобрести доступ к данным, они будут доступны через нашу платформу текстового анализа DiscoverText, где вы можете искать, фильтровать, дедуплицировать, кластеризовывать, кодировать человека и классифицировать данные в автоматическом режиме.

Другие вопросы по тегам