Работа с неточным (неверным) набором данных

Это мое описание проблемы:

"Согласно исследованию доходов и благосостояния домохозяйств, нам необходимо выяснить 10% домохозяйств с наибольшим доходом и расходами. Однако мы знаем, что эти собранные данные ненадежны из-за многих искажений. Несмотря на эти искажения, мы имеем некоторые функции в наборе данных, которые, безусловно, надежны. Но эти определенные функции являются лишь небольшой частью информации для каждого домохозяйства ".

Ненадежные данные означают, что домохозяйства лгут правительству. Эти домохозяйства искажают свои доходы и богатство, чтобы несправедливо получать больше государственных услуг. Следовательно, эти мошеннические заявления в исходных данных приведут к неверным результатам и шаблонам.

Теперь у меня есть следующие вопросы:

  • Как мы должны обращаться с ненадежными данными в науке о данных?
  • Можно ли как-то выяснить эти искажения и затем с помощью алгоритмов машинного обучения сообщить о 10% богатейших людях с большей точностью? -Как мы можем оценить наши ошибки в этом исследовании? Так как у нас есть немаркированный набор данных, я должен искать методы маркировки? Или я должен использовать неконтролируемые методы? Или я должен работать с полуобучаемыми методами обучения?
  • Есть ли идея или приложение в машинном обучении, которое пытается улучшить качество собранных данных?

Пожалуйста, представьте мне любые идеи или ссылки, которые могут помочь мне в этом вопросе.

Заранее спасибо.

1 ответ

Q: Как мы должны обращаться с ненадежными данными в науке о данных

О: Используйте конструкцию функций для исправления ненадежных данных (внесите некоторые преобразования в ненадежные данные, чтобы сделать их надежными) или полностью исключите их - плохие функции могут значительно снизить качество модели.

В: Есть ли способ выяснить эти искажения и затем с помощью алгоритмов машинного обучения сообщить о 10-процентных богатых людях с большей точностью?

A: Алгоритмы ML не являются волшебными палочками, они ничего не могут понять, если вы не скажете им, что ищете. Можете ли вы описать, что означает "ненадежный"? Если да, то, как я уже упоминал, вы можете использовать функцию разработки или написать код, который исправит данные. В противном случае ни один алгоритм ML не сможет вам помочь без описания того, чего именно вы хотите достичь.

В: Есть ли идея или приложение в машинном обучении, которое пытается улучшить качество собранных данных?

Ответ: Я так не думаю, потому что сам вопрос слишком открытый. Что означает "качество данных"?

В общем, вот несколько вещей, которые вы должны рассмотреть:

1) Потратьте некоторое время на поиск технических руководств по поиску в Google. Они описывают, как подготовить ваши данные для вас алгоритмы ML, улучшить их, исправить. Хорошие данные с хорошими возможностями значительно увеличивают результаты.

2) Вам не нужно использовать все функции из исходных данных. Некоторые функции исходного набора данных не имеют смысла, и вам не нужно их использовать. Попробуйте запустить машину повышения градиента или классификатор случайных лесов из scikit-learn в вашем наборе данных, чтобы выполнить классификацию (или регрессию, если вы делаете регрессию). Эти алгоритмы также оценивают важность каждой функции исходного набора данных. Часть ваших функций будет иметь крайне низкое значение для классификации, поэтому вы можете отказаться от них полностью или попытаться как-то объединить неважные функции, чтобы получить что-то более важное.

Другие вопросы по тегам