Анализ правил ассоциации для категориальных данных с большим количеством значений для каждого атрибута

Я борюсь с майнингом правил ассоциации для набора данных, набор данных имеет много двоичных атрибутов, но также имеет много категориальных атрибутов. Преобразование категориального в двоичное теоретически возможно, но не практично. Я ищу технику, чтобы преодолеть эту проблему.

Пример данных для спецификаций автомобилей, для выполнения майнинга правила ассоциации, атрибут цвета автомобиля должен быть двоичным, а в случае цветов у нас есть много цветов, которые нужно передать в двоичный файл (Мой набор данных - это страховые претензии и их намного хуже чем этот пример).

1 ответ

Решение

Майнинг правил ассоциации не использует "атрибуты". Обрабатывает данные типа корзины. Нет смысла предварительно обрабатывать его до двоичных атрибутов. Поскольку вам нужно будет снова преобразовать двоичные атрибуты в элементы (в худшем случае вы должны перевести свой элемент "color=blue" в "color_red=0, color_black=0, ... color_blue=1", если вы также ищете негативные правила.

Разные алгоритмы - и, к сожалению, разные реализации теоретически одного и того же алгоритма - будут масштабироваться по-разному.

APRIORI разработан, чтобы хорошо масштабироваться с количеством транзакций, но не очень хорошо с количеством различных элементов, которые имеют минимальную поддержку; в частности, если вы ожидаете, что короткие наборы будут частыми. Другие алгоритмы, такие как Eclat и FP-Growth, могут быть там намного лучше. Но YMMV.

Во-первых, попытайтесь преобразовать набор данных в формат рыночной корзины таким образом, чтобы каждый элемент считался релевантным. Откажитесь от всего остального. Затем начните с высокой минимальной поддержки, пока не начнете получать результаты. Работа со слишком низкой минимальной поддержкой может просто исчерпать память или может занять много времени.

Кроме того, убедитесь, что вы получили хорошую реализацию. Многие вещи, которые утверждают, что являются APRIORI, являются только половиной этого, и невероятно медленны.

Другие вопросы по тегам