Найти лучшие хэштеги в наборе твитов троллей ИРА?
Твиттер только что выпустил миллионы твитов, связанных с интернет-тролл-фермой "Агентство интернет-исследований" (IRA).
Эти большие наборы данных включают в себя 3841 учетную запись, связанную с IRA, происходящую из России, и 770 других учетных записей, потенциально исходящую из Ирана. Они включают в себя более 10 миллионов твитов и более 2 миллионов изображений, GIF-файлов, видео и трансляций Periscope, в том числе самые ранние действия в Twitter с аккаунтов, связанных с этими кампаниями, начиная с 2009 года.
Доступен ли набор данных в BigQuery? Как я могу найти лучшие хэштеги?
1 ответ
Следователь Джош Рассел поделился набором данных, выпущенным Twitter в BigQuery - теперь вы можете писать запросы поверх него.
Лучшие твиты по количеству ретвитов, которые получили их хэштеги (на английском языке):
#standardSQL
SELECT hashtag, SUM(retweets) total_retweets
, ARRAY_AGG(STRUCT(retweets, tweet_text) ORDER BY retweets DESC LIMIT 1) top_tweet
FROM (
SELECT REGEXP_EXTRACT_ALL(tweet_text, r'(?i)#[^ ,:\.\";\!]*') hashtags, tweet_text, retweet_count retweets
FROM `reddit-198411.IRAhashed.IRAhashed` a
WHERE tweet_language = 'en'
), UNNEST(hashtags) hashtag
WHERE ARRAY_LENGTH(hashtags)>0
GROUP BY 1
ORDER BY 2 DESC
LIMIT 1000
Для других языков я экспортировал результаты в Google Sheet и запустил функцию GOOGLETRANSLATE():
SELECT hashtag, retweets, top_tweet.*
FROM (
SELECT hashtag, SUM(retweet_count) retweets
, ARRAY_AGG(STRUCT(retweet_count AS top_rt_count, tweet_language AS lang, tweet_text AS top_tweet) ORDER BY retweet_count DESC LIMIT 1)[OFFSET(0)] top_tweet
FROM (
SELECT SPLIT(REGEXP_EXTRACT(hashtags, r'.(.*).$'), ', ') hashtags
, retweet_count, tweet_text, tweet_language
FROM `reddit-198411.IRAhashed.IRAhashed`
WHERE LENGTH(hashtags)>2
AND tweet_language NOT IN ('en', 'und')
), UNNEST(hashtags) hashtag
GROUP BY 1
ORDER BY 2 DESC
LIMIT 500
)
Я оставил другие запросы в / r / bigquery: