Как пройти Milestone 2? [закрыто]

введите описание изображения здесь

MSDS 430 Milestone 1 Выполните следующие действия и отправьте записную книжку и файл HTML в Canvas. Заполненная записная книжка должна включать весь вывод, т.е. запускать каждую ячейку и сохранять файл перед отправкой. На этом первом этапе вы начнете работать над финальным проектом этого курса.

  • Этап 1 (30 баллов) Опишите DataFrame и найдите все неверные данные, которые необходимо исправить.

  • Этап 2 (30 баллов) Исправьте неверные данные из этапа 1.

  • Окончательный проект (40 баллов) Выберите одну входную переменную для прогнозирования выходных данных и создайте модель линейной регрессии.

  • Бонус (необязательно) (возможно 20 баллов). Отправляйте прогнозы для вашей модели линейной регрессии на Kaggle.com для оценки.

Построение модели линейной регрессии начинается с тщательного изучения качества данных и должно быть сосредоточено на том, как исправить ошибочные данные. Студентам дается указание с помощью кода Python о том, как найти и исправить эти ошибочные данные. Некоторые студенты следят за этим и делают очень хороший ремонт, в то время как другие упускают из виду этот очень важный шаг. Чтобы помочь студентам, которые упускают из виду этап ремонта, я составил эти задания. Этот процесс исправления укладывается в так называемый исследовательский анализ данных (EDA).

Часто задают вопрос: «Как мне выполнить EDA?» Ответ непростой, потому что данные часто собираются бессистемно или могут быть повреждены неизвестными источниками. Или, в некоторых случаях, это могут быть даже неверные данные.

Отсутствие данных, поиск и исправление записей, которые могут быть повторяющимися, выходящими за пределы диапазона или резко отклоняющимися значениями, а также проблемы, связанные с конкретным приложением, представляют собой проблему.

Имейте в виду, что существует столько же неизвестных проблем с данными, сколько способов сделать ошибку. Не все можно обнаружить. Но лучший способ найти их - это рассматривать каждый набор данных как новую задачу.

Например, данные о заявках на медицинское обслуживание имеют проблемы, связанные с конкретным приложением. Существуют кодовые комбинации, которые не принимаются к оплате по разным причинам. Могут быть повторяющиеся претензии и претензии, связанные с услугами, не покрываемыми страховкой, с неправильной страховкой и многим другим. В случае сомнений работайте с оплаченными претензиями. Оплаченные претензии устранят большинство этих проблем, но некоторые повторяющиеся претензии все равно могут быть оплачены.

Таким образом, ответ зависит от приложения, и лучший EDA, вероятно, будет выполнен человеком, который знает отрасль и имеет опыт работы с подозрительными данными.

Для этого задания некоторые из этих проблем решаются в довольно простом наборе данных. Это отсутствующие значения, повторяющиеся записи и значения вне диапазона. Но описанный процесс должен быть перенесен на другие наборы данных.

Начните с просмотра образца набора данных, который называется набором данных «Цены на строительство». Цель этого набора данных - найти входную переменную, которая будет предсказывать цены на здания. Может быть, налоги, спальни или какая-то другая переменная.

Однако я немного изменил данные для этого задания. В нем действительно есть некорректные данные, и задача состоит в том, чтобы их найти и исправить.

Импортируйте панд, прочтите данные, затем просмотрите некоторые сводные показатели для данных.

Наконец, для Milestone 1 предоставьте список переменных, значений, всего того, что, по вашему мнению, необходимо исправить. Для этого задания исправлять их не нужно. Исправление данных будет темой Milestone 2. Введите описание изображения здесь.

0 ответов

Другие вопросы по тегам