Набор данных бинарной классификации с возрастом, некоторые значения которого отсутствуют

Эта проблема классификации имеет 300000 кортежей и 20 функций. Я хочу использовать алгоритм SVM для решения этой проблемы. Функция age имеет значение от 1 до 100, но эта функция в некоторых кортежах отсутствует и пуста. Как я должен решить это.

2 ответа

Решение

Это, конечно, зависит от распределения отсутствующей переменной, но я бы попробовал вменение - попробуйте заполнить пробелы, используя среднее значение возраста, и посмотрите, какие результаты вы получите. Еще одним шагом будет создание модели, предсказывающей возраст с учетом других входных переменных, и использование ее для вменения.

Вы также можете добавить переменную, указывающую, что данная строка имеет некоторые вмененные значения - это в некоторых случаях дает лучшие результаты обучения, так как вы даете своему алгоритму больше информации.

В дополнение к простому вменению с помощью среднего, как уже упоминалось @dratewka, я бы предложил попробовать:

  • Импутация свойства с использованием классических механизмов вменения, таких как, например, вменение K ближайшего соседа С этим, для образца S с age пропавших без вести, те K образцов, которые являются ближайшими к S используются для получения подходящего значения для вменения age (с расстоянием K соседей до S, измеренным со всеми другими особенностями).

  • Выполнив предыдущий шаг, попробуйте свой прогноз с помощью age и с опущением. Если вы видите, что на эффективность вашего прогноза не влияют ageигнорирование этой информации вообще в первую очередь может быть разумным.

Другие вопросы по тегам