Подготовка данных для кластерного анализа и предварительной обработки данных
Я хочу реализовать грубый алгоритм кластеризации с помощью средств, но у меня нет предыдущего опыта кластеризации, поэтому мне интересно, нужно ли мне выполнить некоторую предварительную обработку данных, чтобы сделать их пригодными для кластеризации.
Например, скажем, у меня есть CSV-файл с большим количеством атрибутов, некоторые числовые, некоторые строки.
Для того, чтобы я применил грубое c, означает clusering (или любой другой вид clusering), должен ли я применять другие грубые методы, такие как выбор атрибута, обнаружение правил, дискретизация, приближается ли нижнее / верхнее приближения?
Каков будет нормальный поток набора смешанных данных для кластеризации? Что бы прошли данные, если бы я использовал алгоритм кластеризации с грубым набором подходов?
Есть ли определенный порядок, в котором вещи должны происходить? Я пытался найти эту информацию, но не смог найти ее где-либо четко заявленной.
Есть идеи? Или как я могу сделать свой вопрос более четким, чтобы получить ответ, потому что я не могу найти ничего, что помогло бы мне начать работу с кластеризацией данных, и я не понимаю, как кластеризация необработанных данных могла бы помочь мне
rank discipline yrs.since.phd yrs.service sex salary
1 Prof B 19 18 Male 139750
2 Prof B 20 16 Male 173200
3 AsstProf B 4 3 Male 79750
4 Prof B 45 39 Male 115000
5 Prof B 40 41 Male 141500
6 AssocProf B 6 6 Male 97000
7 Prof B 30 23 Male 175000
8 Prof B 45 45 Male 147765
9 Prof B 21 20 Male 119250
10 Prof B 18 18 Female 129000
11 AssocProf B 12 8 Male 119800
12 AsstProf B 7 2 Male 79800
13 AsstProf B 1 1 Male 77700
14 AsstProf B 2 0 Male 78000
15 Prof B 20 18 Male 104800
16 Prof B 12 3 Male 117150
17 Prof B 19 20 Male 101000
18 Prof A 38 34 Male 103450
19 Prof A 37 23 Male 124750
20 Prof A 39 36 Female 137000