Набор данных бинарной классификации с возрастом, некоторые значения которого отсутствуют
Эта проблема классификации имеет 300000 кортежей и 20 функций. Я хочу использовать алгоритм SVM для решения этой проблемы. Функция age имеет значение от 1 до 100, но эта функция в некоторых кортежах отсутствует и пуста. Как я должен решить это.
2 ответа
Это, конечно, зависит от распределения отсутствующей переменной, но я бы попробовал вменение - попробуйте заполнить пробелы, используя среднее значение возраста, и посмотрите, какие результаты вы получите. Еще одним шагом будет создание модели, предсказывающей возраст с учетом других входных переменных, и использование ее для вменения.
Вы также можете добавить переменную, указывающую, что данная строка имеет некоторые вмененные значения - это в некоторых случаях дает лучшие результаты обучения, так как вы даете своему алгоритму больше информации.
В дополнение к простому вменению с помощью среднего, как уже упоминалось @dratewka, я бы предложил попробовать:
Импутация свойства с использованием классических механизмов вменения, таких как, например, вменение K ближайшего соседа С этим, для образца
S
сage
пропавших без вести, те K образцов, которые являются ближайшими кS
используются для получения подходящего значения для вмененияage
(с расстоянием K соседей до S, измеренным со всеми другими особенностями).Выполнив предыдущий шаг, попробуйте свой прогноз с помощью
age
и с опущением. Если вы видите, что на эффективность вашего прогноза не влияютage
игнорирование этой информации вообще в первую очередь может быть разумным.