Пример синтетических контрольных данных Mahout

Вики Mahout включает пример использования кластеризации на синтетических данных управления ( здесь).

Пример включает в себя выборку данных со 100 строками данных для каждого из 6 шаблонов в данных. Когда я запускаю пример кода, я ожидаю, что некоторые из методов кластеризации будут обеспечивать лучшую или худшую кластеризацию, но они будут более или менее предоставлять кластеры, объединяющие 6 шаблонов.

Это совсем не то, что я вижу, когда запускаю примеры. Как начинающий, это очень запутанно. Кроме того, поскольку данные не нормализованы и периоды циклических данных не совпадают, очень трудно понять, как эти необработанные данные могут когда-либо правильно кластеризоваться.

Я что-то пропустил? Может ли более опытный Mahout-er дать некоторую ориентацию на то, что следует ожидать в этом конкретном примере?

Меня очень интересует сценарий, в котором шаблоны в данных временных рядов могут быть сгруппированы. Я попытался нормализовать данные и использовать двухточечные дельты в качестве основы для кластеризации, и получил немного лучшие результаты. Есть ли у более опытного аналитика данных предложения по лучшему подходу?

0 ответов

Другие вопросы по тегам