Мультиклассовая классификация стадий в данных по колоректальному раку
Я работаю над проектом с мультиклассовой классификацией на стадии колоректального рака с использованием данных генной экспрессии. Мой набор данных содержит 11 биомаркеров. Результаты классификации составляют около 40%. Я пробовал разные модели для классификации с KNN, SVM, нейронной сетью..., а также я пробовал алгоритмы ансамблевого машинного обучения. Кто-нибудь знает, что я могу сделать с набором данных, чтобы улучшить результаты?
1 ответ
Чтобы решить, что делать дальше, вам понадобятся некоторые показатели:
- Насколько хорошо команда экспертов-людей может классифицировать данные?
- Какова точность модели в обучающем наборе данных?
- Какова точность модели в наборе данных тестирования?
Если точность обучения намного хуже, чем у специалистов-людей, вам следует увеличить сложность модели до тех пор, пока результаты обучения не приблизятся или не превысят специалистов-людей. Это можно сделать, увеличив число входных объектов, выбрав другую модель машинного обучения или увеличив количество слоев в NN. Если точность обучения низкая, вам нужно сначала улучшить ее, прежде чем тратить время на повышение точности тестирования.
Если точность обучения хорошая, но точность тестирования намного хуже, чем точность тренировки, вы, вероятно, перегружены. Получите или создайте больше обучающих данных и используйте регуляризацию.