Подготовка данных для кластерного анализа и предварительной обработки данных

Я хочу реализовать грубый алгоритм кластеризации с помощью средств, но у меня нет предыдущего опыта кластеризации, поэтому мне интересно, нужно ли мне выполнить некоторую предварительную обработку данных, чтобы сделать их пригодными для кластеризации.

Например, скажем, у меня есть CSV-файл с большим количеством атрибутов, некоторые числовые, некоторые строки.

Для того, чтобы я применил грубое c, означает clusering (или любой другой вид clusering), должен ли я применять другие грубые методы, такие как выбор атрибута, обнаружение правил, дискретизация, приближается ли нижнее / верхнее приближения?

Каков будет нормальный поток набора смешанных данных для кластеризации? Что бы прошли данные, если бы я использовал алгоритм кластеризации с грубым набором подходов?

Есть ли определенный порядок, в котором вещи должны происходить? Я пытался найти эту информацию, но не смог найти ее где-либо четко заявленной.

Есть идеи? Или как я могу сделать свой вопрос более четким, чтобы получить ответ, потому что я не могу найти ничего, что помогло бы мне начать работу с кластеризацией данных, и я не понимаю, как кластеризация необработанных данных могла бы помочь мне

    rank    discipline  yrs.since.phd   yrs.service sex salary  
1   Prof    B   19  18  Male    139750  
2   Prof    B   20  16  Male    173200  
3   AsstProf    B   4   3   Male    79750   
4   Prof    B   45  39  Male    115000  
5   Prof    B   40  41  Male    141500  
6   AssocProf   B   6   6   Male    97000   
7   Prof    B   30  23  Male    175000  
8   Prof    B   45  45  Male    147765  
9   Prof    B   21  20  Male    119250  
10  Prof    B   18  18  Female  129000  
11  AssocProf   B   12  8   Male    119800  
12  AsstProf    B   7   2   Male    79800   
13  AsstProf    B   1   1   Male    77700   
14  AsstProf    B   2   0   Male    78000   
15  Prof    B   20  18  Male    104800  
16  Prof    B   12  3   Male    117150  
17  Prof    B   19  20  Male    101000  
18  Prof    A   38  34  Male    103450  
19  Prof    A   37  23  Male    124750  
20  Prof    A   39  36  Female  137000  

0 ответов

Другие вопросы по тегам