Связаны ли правила, сгенерированные алгоритмом ученика дерева решений?

Я работал над алгоритмом ученика дерева решений для обнаружения мошеннических банковских операций. До сих пор я генерировал набор правил для дерева решений на основе моего набора данных. Я также сгенерировал значение значимости для каждого правила: сколько транзакций из моего набора данных удовлетворяет определенному правилу, какой процент мошенничества захватывает правило и т. Д. Теперь, в зависимости от значимости правил, мне нужно выбрать лучшие десять правил,

Мой вопрос: когда я выбираю десятку лучших правил, есть ли вероятность того, что некоторые правила будут коррелированными?

Например: набор данных, над которым я работаю, содержит 10000 транзакций. Алгоритм дерева решений дает мне 20 правил. Из 20 правил мне нужно выбрать первые десять правил. Теперь предположим, что rule1 идентифицирует 50 транзакций, а rule2 идентифицирует 60 транзакций. Какова вероятность того, что некоторые из правил, определенных правилом 1, также будут определены правилом 2?

Примечание. В первую десятку сделок входит большинство случаев мошенничества.

1 ответ

Вы не можете получить вероятность таким образом. Корреляция является характерным свойством набора данных, которое вы вычисляете для каждой ситуации. Это не то, что вы можете алгебраически извлечь из данной информации. Ответ на ваш пример может варьироваться во всем теоретическом диапазоне: от 0 до 50.

В этом приложении вы должны будете индивидуально подсчитать, какие транзакции удовлетворяют каким правилам (список 10000 * 20) и вычислить корреляции из этой реальной статистики.

Одной из областей определения взаимодействий и индивидуальной валидности является "перекрестная проверка". Например, вы удалите одно правило из коллекции, повторно запустите модель для транзакций и посмотрите, какие изменения появятся в ваших показателях проверки (точность, отзыв и т. Д.). Часто это первый шаг в анализе главных компонентов.

Отмечу, что вы не определили "десять лучших правил". Являются ли эти десять правил, которые, взятые по отдельности, охватывают большинство транзакций? Те, чье индивидуальное отсутствие пропускает большинство сделок? Возможно, вам нужен набор из десяти правил, которые в совокупности имеют высочайшую точность? Это три совершенно разные проблемы, которые зависят от корреляции, о которой вы спрашиваете.

Другие вопросы по тегам