Хорошая практика для обучения без учителя с n-мерным входным вектором, состоящим из числовых и категориальных переменных
Я пытаюсь построить классификатор на основе немаркированных данных. Цель моего классификатора - идентифицировать 4 класса в наборах данных. Мой набор данных состоит из примерно 30 функций (из которых я удалю некоторые функции, касающиеся улучшения производительности). Поскольку в моем случае невозможно пометить данные, я пришел к выводу, что имеет смысл создать такой классификатор с помощью обучения без надзора.
Испытания:
На выбор подхода влияют 2 проблемы:
- Высокая размерность входного вектора
- Числовые и категориальные особенности
Моя первая мысль:
Я думал о преобразовании категориальных объектов в числовые, поскольку эти "ключевые слова" часто появляются в пространстве объектов. Например, одна особенность может быть "Pet", а некоторые значения "Cat", "Dog", а многие редкие могут быть суммированы с "Other". В этом случае я бы изменил эти значения, например, на 0,1,2.....
Однако следует помнить, что подходы, использующие расстояния Евклида, не будут хорошо работать с числовыми дискретными преобразованными категориальными данными.
Из-за высокой размерности моего входного вектора кластеризация k-Means не будет работать.
Другим подходом может быть самоорганизация карт, но я не уверен, что это решит проблему.
Мой вопрос:
Может ли кто-нибудь порекомендовать подход обучения без учителя, который способен обрабатывать n-мерный входной вектор, на который не влияют (преобразуются) категориальные переменные, и основываться на этом классификаторе?