Набор данных с большим количеством нулевого значения в качестве пропущенного значения. Что я должен делать?

В настоящее время я работаю над набором данных фильма IMDB 5000 для проекта класса. Переменная бюджета имеет много нулевых значений.

Они пропускают записи. Я не могу отбросить их, потому что они составляют 22% всех моих данных.

Что мне делать в Python? Некоторые предложили биннинг? Не могли бы вы предоставить более подробную информацию?

0 ответов

Есть несколько вариантов.

  • Возьмите среднее значение ненулевых значений и заполните все нули средним значением. Это дает "липкие" результаты, и это не лучшая практика, поскольку несколько выбросов могут отбросить все.
  • Используйте медиану ненулевых значений, также не лучший вариант, но с меньшей вероятностью будет выброшен выбросами.
  • Биннинг будет брать сумму бюджетов, а затем, скажем, разделить фильмы на определенное количество групп, например, бюджет больше или меньше миллиона, взять средний бюджет, затем разделить его на количество групп, которые вы хотите, а затем использовать интервалы, созданные из в среднем, если они попадают в группу 0, дайте им ноль, если группа 1 - один и т. д.
  • Я думаю, что поиск фактических бюджетов для фильмов и замена плохо составленных бюджетов реальным бюджетом будет хорошим вариантом в зависимости от анализа, который вы проводите. Вы можете взять медианное или среднее значение для каждого столбца функции бюджета, равное проценту от каждого бюджета для фильма, а затем заполнить нули процентом бюджета, который занимает медиана. Если медианное значение для ненулевого столбца act_pay равно бюджету / субъекту_плата =60%, то можно будет заполнить столбец "актер_плат" с обнуленным значением 60% бюджета этого фильма.

  • Жесткий вариант: создайте функцию, которая принимает ненулевые значения бюджетов фильмов и пытается интерполировать бюджет фильмов на основе других данных фильмов в таблице. Этот вариант больше похож на собственный проект, и сначала действительно стоит попробовать указанные выше варианты.

Другие вопросы по тегам