Почему функция хороша для выделения кластера?

Предположим, что мы пытаемся оценить важность каждой функции набора данных для каждого данного кластера в задаче кластеризации. Какие характеристики мы должны измерить в признаке, чтобы считать его хорошим для характеристики данного кластера?

Я ищу более аналитическую характеристику этих функций. Например, если объект f имеет высокое стандартное отклонение во всем наборе данных, но небольшое стандартное отклонение в кластере c, означает ли это, что эта функция важна для различения кластера c?

1 ответ

Здесь вы можете использовать два подхода:

  • Подход к выбору функции будет состоять в том, чтобы удалить упомянутую функцию и повторить кластеризацию и посмотреть, оказал ли она сильный эффект, если нет, вы можете сказать, что эта функция не нужна для задачи кластеризации. Недостатком этого подхода является время, необходимое для запуска процесса кластеризации для каждого подмножества объектов в наборе данных.
  • Статистический подход заключается в разделении данных на две группы: выборки из кластера и остальные выборки. Затем вы спрашиваете, насколько различаются значения признаков при сравнении двух популяций. В зависимости от распределения этой функции, вы можете выбрать для этой задачи такой тест, как KS-тест, t-тест, критерий хи-квадрат или любой другой тест для сравнения распределений двух выборок.
Другие вопросы по тегам