Как пройти Milestone 2? [закрыто]
введите описание изображения здесь
MSDS 430 Milestone 1 Выполните следующие действия и отправьте записную книжку и файл HTML в Canvas. Заполненная записная книжка должна включать весь вывод, т.е. запускать каждую ячейку и сохранять файл перед отправкой. На этом первом этапе вы начнете работать над финальным проектом этого курса.
Этап 1 (30 баллов) Опишите DataFrame и найдите все неверные данные, которые необходимо исправить.
Этап 2 (30 баллов) Исправьте неверные данные из этапа 1.
Окончательный проект (40 баллов) Выберите одну входную переменную для прогнозирования выходных данных и создайте модель линейной регрессии.
Бонус (необязательно) (возможно 20 баллов). Отправляйте прогнозы для вашей модели линейной регрессии на Kaggle.com для оценки.
Построение модели линейной регрессии начинается с тщательного изучения качества данных и должно быть сосредоточено на том, как исправить ошибочные данные. Студентам дается указание с помощью кода Python о том, как найти и исправить эти ошибочные данные. Некоторые студенты следят за этим и делают очень хороший ремонт, в то время как другие упускают из виду этот очень важный шаг. Чтобы помочь студентам, которые упускают из виду этап ремонта, я составил эти задания. Этот процесс исправления укладывается в так называемый исследовательский анализ данных (EDA).
Часто задают вопрос: «Как мне выполнить EDA?» Ответ непростой, потому что данные часто собираются бессистемно или могут быть повреждены неизвестными источниками. Или, в некоторых случаях, это могут быть даже неверные данные.
Отсутствие данных, поиск и исправление записей, которые могут быть повторяющимися, выходящими за пределы диапазона или резко отклоняющимися значениями, а также проблемы, связанные с конкретным приложением, представляют собой проблему.
Имейте в виду, что существует столько же неизвестных проблем с данными, сколько способов сделать ошибку. Не все можно обнаружить. Но лучший способ найти их - это рассматривать каждый набор данных как новую задачу.
Например, данные о заявках на медицинское обслуживание имеют проблемы, связанные с конкретным приложением. Существуют кодовые комбинации, которые не принимаются к оплате по разным причинам. Могут быть повторяющиеся претензии и претензии, связанные с услугами, не покрываемыми страховкой, с неправильной страховкой и многим другим. В случае сомнений работайте с оплаченными претензиями. Оплаченные претензии устранят большинство этих проблем, но некоторые повторяющиеся претензии все равно могут быть оплачены.
Таким образом, ответ зависит от приложения, и лучший EDA, вероятно, будет выполнен человеком, который знает отрасль и имеет опыт работы с подозрительными данными.
Для этого задания некоторые из этих проблем решаются в довольно простом наборе данных. Это отсутствующие значения, повторяющиеся записи и значения вне диапазона. Но описанный процесс должен быть перенесен на другие наборы данных.
Начните с просмотра образца набора данных, который называется набором данных «Цены на строительство». Цель этого набора данных - найти входную переменную, которая будет предсказывать цены на здания. Может быть, налоги, спальни или какая-то другая переменная.
Однако я немного изменил данные для этого задания. В нем действительно есть некорректные данные, и задача состоит в том, чтобы их найти и исправить.
Импортируйте панд, прочтите данные, затем просмотрите некоторые сводные показатели для данных.
Наконец, для Milestone 1 предоставьте список переменных, значений, всего того, что, по вашему мнению, необходимо исправить. Для этого задания исправлять их не нужно. Исправление данных будет темой Milestone 2. Введите описание изображения здесь.