Выбор переменных, включающий сочетание числовых, высоких и низких кардинальных характеристик

Рассмотрим фиктивный фрейм данных:

A B C  D …. Z
1 2 as we   2
24 qq rr   5 
4 5 tz rc   9

Этот фреймворк данных имеет 25 независимых переменных и одну целевую переменную, независимые переменные представляют собой смесь высших кардинальных признаков, числовых признаков и низших кардинальных признаков, а целевая переменная является числовой. Теперь я сначала хочу выбрать или отфильтровать переменные, которые помогают прогнозировать целевую переменную. Любые предложения или советы по достижению этой цели приветствуются. Надеюсь, мой вопрос ясен, если форма вопроса неясна, я приветствую предложения по внесению исправлений.

Что я пробовал до сих пор? Я применил кодирование целевого среднего (сглаженное среднее) к категориальным характеристикам по целевой переменной. Затем я применил случайный лес, чтобы узнать важность переменных. И что странно, случайный лес все время выбирает только одну функцию, я ожидал как минимум 3-4 значимых переменных. Я пробовал нейронные сети, но результат не изменился, в чем причина этого? Что это значит, если в алгоритмах используется только одна переменная? И предсказания тестов не очень точны. Среднеквадратичное значение составляет около 2,4, при этом значение целевого объекта обычно находится в диапазоне 20-40 значений. Спасибо за терпение при чтении этого. PS: Я использую SKlearn и на Python.

0 ответов

Другие вопросы по тегам