Растущая самоорганизующаяся карта для данных смешанного типа

Я пытаюсь написать код для построения растущего SOM для данных смешанного типа. Я наткнулся на документ "Растущая самоорганизующаяся карта" с перекрестной вставкой для данных смешанного типа ( http://www.sciencedirect.com/science/article/pii/S1568494612001731). Это было очень интересно и обрабатывало как категориальные, так и числовые данные единым способом. Однако в моем наборе данных есть переменные / атрибуты, которые могут иметь несколько значений (например, атрибут "интересов" может иметь более одного значения - фильмы, спорт и т. Д.). Я застрял в обработке таких атрибутов. Любые входы, как обрабатывать атрибуты с наборами значений в наборе данных смешанного типа? Ссылки на материалы, которые говорят об этой проблеме, будут с благодарностью.

1 ответ

Обычной практикой при использовании категориальных атрибутов в нейронных сетях является разбиение атрибута на несколько двоичных атрибутов (true/false), по одному для каждого значения атрибута категориального атрибута. Например, если у вас есть атрибут "интересы" со значениями "фильмы", "спорт", "готовка", то вы разделите его на три атрибута, по одному для каждого значения, фильмы со значениями 0/1, виды спорта со значениями 0/1. и приготовление пищи со значениями 0/1. Единственный случай, когда вы могли бы избежать такого разделения, - это когда значения атрибутов можно упорядочить и таким образом преобразовать в один числовой атрибут. Например, если у вас есть атрибут качества с плохими, средними и хорошими значениями, вы просто отображаете эти значения на цифры 0,1,2 или что-то подобное. Вы не можете сделать то же самое с атрибутами типа "интересы", потому что если вы назначаете 0 для фильмов, 1 для спорта и 2 для приготовления пищи, то вы считаете, что спорт больше похож на приготовление пищи, чем фильмы, что, конечно, неправильно. Когда ваш категориальный атрибут имеет много возможных значений, а не только три, к сожалению, все становится очень неприятным.

https://stats.stackexchange.com/questions/21770/encoding-categorical-features-to-numbers-for-machine-learning

http://www.mathworks.com/support/solutions/en/data/1-8H0STM/index.html

Google для

машинное обучение преобразование категориальных в числовые

и вы найдете много ресурсов и возможных оптимизаций для этой проблемы.

Другие вопросы по тегам