Как структурировать данные для алгоритма Apriori?
Я хочу видеть, пишут ли пользователи, которые пишут в Твиттере об одном, и о другом. Я использовал пакет TwittR в R studio для загрузки твитов, содержащих ключевые слова, а затем загрузил временные шкалы этих пользователей в python. Мои данные структурированы следующим образом.
user_name, идентификатор, created_at, текст
exampleuser,814495243068313603,2016-12-29 15:36:13, 'MT @nixon1788: Обама и левые отвратительные антисемитские рвоты! #WithdrawUNFunding"
Можно ли использовать алгоритм априори для генерации правил ассоциации? Кто-нибудь знает, как структурировать эти данные, чтобы использовать их, или, если это возможно, с данными, которые у меня есть?
1 ответ
Решение
Вот пример как стартер:
txt <- c("Trump builds a wall", "Trump goes wall", "Obama buys drones", "Drones by Obama")
library(quanteda)
library(arules)
dfm <- dfm(txt)
trans <- as(as.matrix(dfm), "transactions")
rules <- apriori(
data = trans,
parameter = list(minlen = 2L, maxlen=2, conf = 1),
appearance = list(lhs = c("obama", "trump"), default="rhs")
)
inspect(rules)
# lhs rhs support confidence lift
# 1 {obama} => {drones} 0.5 1 2
# 2 {trump} => {wall} 0.5 1 2