Описание тега data-preprocessing

Предварительная обработка может представлять собой структурирование необработанных данных и очистку, чтобы их можно было действительно использовать, до преобразования данных, чтобы их можно было обрабатывать с помощью алгоритмов или улучшать их результаты. Желательно также использовать теги для конкретных методов. Этот тег следует использовать для значимых шагов предварительной обработки в конвейере данных, до алгоритмов или в качестве автономного метода.

Предварительная обработка данных применима к нескольким этапам, на которых данные могут сохраняться. Это может быть на более высоком уровне прямо перед более значимыми этапами обработки, такими как анализ.
Но предварительная обработка также начинается, когда генерируются необработанные данные, и ее необходимо преобразовать в осмысленный и удобный формат. В настоящее время манипулирование данными тега лучше соответствует этому описанию более низкого уровня, а также структуры данных , если важна структура того, как данные хранятся и запрашиваются. Поиск ошибок, отсутствующих значений и способы их обработки также являются важной частью этого. Для этого лучше использовать тег data-cleaning и/или data-wrangling.

Эта предварительная обработка данных тегов должна больше фокусироваться на реорганизации и преобразовании данных, чтобы они могли использоваться алгоритмами или улучшать их результаты. Примерами предварительной обработки являются кодирование данных, их масштабирование или нормализация уже отформатированного набора данных.

Алгоритмы и методы препроцессинга можно найти в модулях scikit-learn Preprocessing and Normalization:

Дальнейшая теория и примеры необходимости предварительной обработки данных обсуждаются в разделе scikit-learn — Предварительная обработка данных.