Хорошая практика для обучения без учителя с n-мерным входным вектором, состоящим из числовых и категориальных переменных

Я пытаюсь построить классификатор на основе немаркированных данных. Цель моего классификатора - идентифицировать 4 класса в наборах данных. Мой набор данных состоит из примерно 30 функций (из которых я удалю некоторые функции, касающиеся улучшения производительности). Поскольку в моем случае невозможно пометить данные, я пришел к выводу, что имеет смысл создать такой классификатор с помощью обучения без надзора.


Испытания:

На выбор подхода влияют 2 проблемы:

  • Высокая размерность входного вектора
  • Числовые и категориальные особенности

Моя первая мысль:

Я думал о преобразовании категориальных объектов в числовые, поскольку эти "ключевые слова" часто появляются в пространстве объектов. Например, одна особенность может быть "Pet", а некоторые значения "Cat", "Dog", а многие редкие могут быть суммированы с "Other". В этом случае я бы изменил эти значения, например, на 0,1,2.....

Однако следует помнить, что подходы, использующие расстояния Евклида, не будут хорошо работать с числовыми дискретными преобразованными категориальными данными.

Из-за высокой размерности моего входного вектора кластеризация k-Means не будет работать.

Другим подходом может быть самоорганизация карт, но я не уверен, что это решит проблему.


Мой вопрос:

Может ли кто-нибудь порекомендовать подход обучения без учителя, который способен обрабатывать n-мерный входной вектор, на который не влияют (преобразуются) категориальные переменные, и основываться на этом классификаторе?

0 ответов