Правило Ассоциации Mining (Доверие и Подъем)
В настоящее время я работаю над конкретным проектом для моего университета. В этом проекте я буду создавать модель перекрестных продаж с майнингом правил ассоциации.
В результате у меня есть тонны правил, но я не уверен, как их ранжировать, которые были бы лучшими.
Какой вариант будет лучше, если
Опция 1: Confidence=20% Lift= 5
Вариант 2: Confidence = 50% Lift = 2
Я знаю, что доверие важно, но я слышал Lift
это тоже очень важно. Должен ли я жертвовать некоторой уверенностью для большего подъема или сохранять равновесие?
1 ответ
Это зависит от цели майнинга правила ассоциации:
например:
- 100.000 transactions' database
- 2.000 tranasctions contain {(a, b)}
- 800 transactions contain {(a, b, c)}
поддержка itemset {(a, b, c)}: (800 / 100.000) * 100 = 0,8%
,
поддержка набора элементов указывает, как часто случайная транзакция базы данных содержит элементы набора элементов.
правило доверия ассоциации {(a, b)} -> {(c)}: (800 / 2000) * 100 = 40%
,
доверие к правилу ассоциации показывает, как часто случайная транзакция базы данных, которая содержит следствие правила ассоциации, также содержит предшественник правил ассоциации.
правило отмены ассоциации {(a, b)} -> {(c)}: 40 / ((5.000 / 100.000) * 100) = 8
,
Подъем - это отношение доверия к ожидаемому доверию правила ассоциации. доверие к правилу ассоциации составляет 40%. Ожидаемая уверенность в этом контексте означает, что если {(a, b)}
происходит в транзакции, что это не увеличивает вероятность того, что {(c)}
происходит в этой транзакции, а также.
например, если {(c)}
происходит в 5.000 транзакций базы данных, тогда ожидаемая достоверность (100.000 / 5.000) * 100 = 5%
,
значение подъема правила ассоциации, которое выше, чем 1
указывает, что правило ассоциации полезно. значение подъема меньше или равно 1
указывает, что правило ассоциации бесполезно. в этом случае это похоже на предшествующее и последствие правила ассоциации не зависят друг от друга. полезность указания правила ассоциации, что если транзакция выполняется ({a, b})
что тогда ассоциируется ({c})
не более полезным, чем это ({a, b})
accociates ({c})
случайно.
например, если все 100.000 транзакций базы данных содержат {(c)}
ожидаемое значение {(c)} (100.000 / 100.000) * 100 = 100%
, лифт 40 / 100 = 0,4
, это меньше, чем 1
, следовательно, правило ассоциации {(a, b)} -> {(c)}
не полезно {(c)}
в каждой транзакции. Если там есть {(a, b)}
в транзакции есть {(c)}
в любом случае. не использовать ассоциацию.
здесь круг замыкается: это зависит от цели майнинга правила ассоциации. если цель состоит в том, чтобы создать сверхсильные правила ассоциации, доверие должно быть слишком высоким. если цель состоит в том, чтобы создать дополнительные полезные правила ассоциации, то лифт должен быть очень высоким.