Могу ли я исключить категориальный объект из набора данных, если один из его уровней составляет 80% или более от всех наблюдений для этого объекта?

У меня есть основной вопрос, связанный с подготовкой набора данных перед его тестированием с помощью различных алгоритмов машинного обучения. Я хочу знать, могу ли я исключить категориальный объект из набора данных, если один из его уровней представляет 80% или более всех наблюдений для этого объекта?

Этот конкретный набор данных содержит более 80 функций, но многие из них являются категориальными, а некоторые имеют один уровень или категорию, представляющую подавляющее большинство (более 80%) этой функции. Должен ли я удалить их полностью или все же сгруппировать их, например, уровень «A» (80% всех наблюдений), уровень «B» (допустим, 12% всех наблюдений), а затем уровень «Другое» ( оставшиеся 8% представляют собой оставшиеся уровни, объединенные в один).

Я искал в Интернете, но не могу получить ответ, который действительно ясно объяснял бы мне это.

0 ответов

Другие вопросы по тегам