Правило Ассоциации Mining (Доверие и Подъем)

В настоящее время я работаю над конкретным проектом для моего университета. В этом проекте я буду создавать модель перекрестных продаж с майнингом правил ассоциации.

В результате у меня есть тонны правил, но я не уверен, как их ранжировать, которые были бы лучшими.

Какой вариант будет лучше, если

Опция 1: Confidence=20% Lift= 5

Вариант 2: Confidence = 50% Lift = 2

Я знаю, что доверие важно, но я слышал Lift это тоже очень важно. Должен ли я жертвовать некоторой уверенностью для большего подъема или сохранять равновесие?

1 ответ

Это зависит от цели майнинга правила ассоциации:

например:

 - 100.000 transactions' database

 - 2.000 tranasctions contain {(a, b)}

 - 800 transactions contain {(a, b, c)}

поддержка itemset {(a, b, c)}: (800 / 100.000) * 100 = 0,8%,

поддержка набора элементов указывает, как часто случайная транзакция базы данных содержит элементы набора элементов.


правило доверия ассоциации {(a, b)} -> {(c)}: (800 / 2000) * 100 = 40%,

доверие к правилу ассоциации показывает, как часто случайная транзакция базы данных, которая содержит следствие правила ассоциации, также содержит предшественник правил ассоциации.


правило отмены ассоциации {(a, b)} -> {(c)}: 40 / ((5.000 / 100.000) * 100) = 8,

Подъем - это отношение доверия к ожидаемому доверию правила ассоциации. доверие к правилу ассоциации составляет 40%. Ожидаемая уверенность в этом контексте означает, что если {(a, b)} происходит в транзакции, что это не увеличивает вероятность того, что {(c)} происходит в этой транзакции, а также.

например, если {(c)} происходит в 5.000 транзакций базы данных, тогда ожидаемая достоверность (100.000 / 5.000) * 100 = 5%,

значение подъема правила ассоциации, которое выше, чем 1 указывает, что правило ассоциации полезно. значение подъема меньше или равно 1 указывает, что правило ассоциации бесполезно. в этом случае это похоже на предшествующее и последствие правила ассоциации не зависят друг от друга. полезность указания правила ассоциации, что если транзакция выполняется ({a, b}) что тогда ассоциируется ({c}) не более полезным, чем это ({a, b}) accociates ({c}) случайно.

например, если все 100.000 транзакций базы данных содержат {(c)} ожидаемое значение {(c)} (100.000 / 100.000) * 100 = 100%, лифт 40 / 100 = 0,4, это меньше, чем 1, следовательно, правило ассоциации {(a, b)} -> {(c)} не полезно {(c)} в каждой транзакции. Если там есть {(a, b)} в транзакции есть {(c)} в любом случае. не использовать ассоциацию.


здесь круг замыкается: это зависит от цели майнинга правила ассоциации. если цель состоит в том, чтобы создать сверхсильные правила ассоциации, доверие должно быть слишком высоким. если цель состоит в том, чтобы создать дополнительные полезные правила ассоциации, то лифт должен быть очень высоким.

Другие вопросы по тегам