Описание тега data-preprocessing
Предварительная обработка данных применима к нескольким этапам, на которых данные могут сохраняться. Это может быть на более высоком уровне прямо перед более значимыми этапами обработки, такими как анализ.
Но предварительная обработка также начинается, когда генерируются необработанные данные, и ее необходимо преобразовать в осмысленный и удобный формат. В настоящее время манипулирование данными тега лучше соответствует этому описанию более низкого уровня, а также структуры данных , если важна структура того, как данные хранятся и запрашиваются. Поиск ошибок, отсутствующих значений и способы их обработки также являются важной частью этого. Для этого лучше использовать тег data-cleaning и/или data-wrangling.
Эта предварительная обработка данных тегов должна больше фокусироваться на реорганизации и преобразовании данных, чтобы они могли использоваться алгоритмами или улучшать их результаты. Примерами предварительной обработки являются кодирование данных, их масштабирование или нормализация уже отформатированного набора данных.
Алгоритмы и методы препроцессинга можно найти в модулях scikit-learn Preprocessing and Normalization:
Дальнейшая теория и примеры необходимости предварительной обработки данных обсуждаются в разделе scikit-learn — Предварительная обработка данных.