Любая причина, почему эти экземпляры могут быть неправильно классифицированы?

Я начал с двух файлов training & testing,

Затем, используя libsvm, я масштабировал оба этих файла до training.scale а также testing.scale

Затем с помощью grid.py (часть libsvm) я побежал training.scale и и получил некоторые значения перекрестной проверки:

C = 512
gamme = 0.03125
validation 5 = 66.8421

Потом работает svm-train используя переменную, найденную из grid.py и обучение. Масштаб я получил новый штраф под названием training.scale.model

Я тогда побежал svm-predict и я новый файл называется testing.predict и получил подтверждение% 60,8333%

Наконец сравнивая testing а также testing.predict обнаружил, что было 47/120 неправильной классификации

[ https://drive.google.com/folderview?id=0BxzgP5V6RPQHekRjZXdFYW9GX0U&usp=sharing][1]

[1]: ссылка на код

Реальный вопрос, есть ли причина, по которой эти неправильные классификации происходят?

PS. Я извиняюсь за плохой формат этого вопроса, слишком долго

1 ответ

Я предполагаю, что вы новичок в машинном обучении. Результаты, которые вы получили, совершенно правильные.

Причина, по которой происходят эти неправильные классификации? Функции, которые вы использовали, плохо разделяют ваши классы. 66% результатов перекрестной проверки должны были дать вам подсказку. Даже методом простого попадания или пропуска вы получите 50% точности, а набор функций, который вы использовали, может улучшить это только еще на 16%. Попробуйте изучить новые функции.

Я предполагаю, что ваш набор данных чистый.

Другие вопросы по тегам