Пример синтетических контрольных данных Mahout
Вики Mahout включает пример использования кластеризации на синтетических данных управления ( здесь).
Пример включает в себя выборку данных со 100 строками данных для каждого из 6 шаблонов в данных. Когда я запускаю пример кода, я ожидаю, что некоторые из методов кластеризации будут обеспечивать лучшую или худшую кластеризацию, но они будут более или менее предоставлять кластеры, объединяющие 6 шаблонов.
Это совсем не то, что я вижу, когда запускаю примеры. Как начинающий, это очень запутанно. Кроме того, поскольку данные не нормализованы и периоды циклических данных не совпадают, очень трудно понять, как эти необработанные данные могут когда-либо правильно кластеризоваться.
Я что-то пропустил? Может ли более опытный Mahout-er дать некоторую ориентацию на то, что следует ожидать в этом конкретном примере?
Меня очень интересует сценарий, в котором шаблоны в данных временных рядов могут быть сгруппированы. Я попытался нормализовать данные и использовать двухточечные дельты в качестве основы для кластеризации, и получил немного лучшие результаты. Есть ли у более опытного аналитика данных предложения по лучшему подходу?