Любая причина, почему эти экземпляры могут быть неправильно классифицированы?
Я начал с двух файлов training
& testing
,
Затем, используя libsvm, я масштабировал оба этих файла до training.scale
а также testing.scale
Затем с помощью grid.py
(часть libsvm) я побежал training.scale
и и получил некоторые значения перекрестной проверки:
C = 512
gamme = 0.03125
validation 5 = 66.8421
Потом работает svm-train
используя переменную, найденную из grid.py
и обучение. Масштаб я получил новый штраф под названием training.scale.model
Я тогда побежал svm-predict
и я новый файл называется testing.predict
и получил подтверждение% 60,8333%
Наконец сравнивая testing
а также testing.predict
обнаружил, что было 47/120 неправильной классификации
[ https://drive.google.com/folderview?id=0BxzgP5V6RPQHekRjZXdFYW9GX0U&usp=sharing][1]
[1]: ссылка на код
Реальный вопрос, есть ли причина, по которой эти неправильные классификации происходят?
PS. Я извиняюсь за плохой формат этого вопроса, слишком долго
1 ответ
Я предполагаю, что вы новичок в машинном обучении. Результаты, которые вы получили, совершенно правильные.
Причина, по которой происходят эти неправильные классификации? Функции, которые вы использовали, плохо разделяют ваши классы. 66% результатов перекрестной проверки должны были дать вам подсказку. Даже методом простого попадания или пропуска вы получите 50% точности, а набор функций, который вы использовали, может улучшить это только еще на 16%. Попробуйте изучить новые функции.
Я предполагаю, что ваш набор данных чистый.