"Ноль частых предметов" при использовании eclat для майнинга частых предметов
Поэтому я хочу найти шаблоны и "кластеры", основанные на том, какие предметы покупаются вместе, и в соответствии с вики для eclat:
Алгоритм Eclat используется для майнинга наборов предметов. Анализ наборов данных позволяет нам находить частые закономерности в данных, например, если потребитель покупает молоко, он также покупает хлеб. Этот тип шаблона называется правилами ассоциации и используется во многих областях приложений.
Хотя, когда я использую eclat в R, я получаю "ноль частых элементов" и "NULL" при получении результатов через tidLists. Кто-нибудь может увидеть, что я делаю не так?
Полный набор данных: https://pastebin.com/8GbjnHK2
Каждая строка представляет собой транзакции, содержащие различные элементы в столбцах. Быстрая привязка данных:
3060615;;;;;;;;;;;;;;;
3060612;3060616;;;;;;;;;;;;;;
3020703;;;;;;;;;;;;;;;
3002469;;;;;;;;;;;;;;;
3062800;;;;;;;;;;;;;;;
3061943;3061965;;;;;;;;;;;;;;
Код
trans = read.transactions("Transactions.csv", format = "basket", sep = ";")
f <- eclat(trans, parameter = list(supp = 0.1, maxlen = 17, tidLists = TRUE))
dim(tidLists(f))
as(tidLists(f), "list")
Может ли это быть из-за структуры данных? В таком случае, как мне это изменить? Кроме того, что мне делать, чтобы получить предлагаемые наборы предметов? Я не мог понять это из вики.
РЕДАКТИРОВАТЬ: я использовал 0,004 для Supp, как предложено @hpesoj626. Но похоже, что функция группирует заказы / пользователей, а не элементы. Я не знаю, как экспортировать данные, поэтому вот картинка из tidLists:
1 ответ
Проблема в том, что вы установили слишком высокую поддержку. Попробуйте настроить supp
сказать, supp = .001
за что мы получаем
dim(tidLists(f))
# [1] 928 15840
Для вашего набора данных самая высокая поддержка - 0,08239, что ниже 0,1. Вот почему вы не получаете результатов с supp = 0.1
,
inspect(head(sort(f, by = "support"), 10))
# items support count
# [1] {3060620} 0.08239 1305
# [2] {3060619} 0.07260 1150
# [3] {3061124} 0.05688 901
# [4] {3060618} 0.05663 897
# [5] {4027039} 0.04975 788
# [6] {3060617} 0.04564 723
# [7] {3061697} 0.04306 682
# [8] {3060619,3060620} 0.03087 489
# [9] {3039715} 0.02727 432
# [10] {3045117} 0.02708 429