Smote - это аббревиатура от Synthetic Minority Oversampling TEchnique. Этот тег относится к методу передискретизации, который обычно используется в машинном обучении для балансировки распределений классов в наборах данных путем введения новых примеров классов меньшинств.

В машинном обучении большинство классификаторов работает в предположении, что классы, указанные в обучающем наборе, примерно сбалансированы. Когда классы несбалансированы, классификаторы склонны предсказывать класс большинства.

Один из способов преодолеть это - выполнить интерполяцию среди экземпляров соседних классов меньшинств и сгенерировать искусственные выборки.

Полезные ссылки:

Одна из ранних публикаций на SMOTE: chawla et al 2002

Один обзор SMOTE: Fernández et al 2017

Влияние наборов данных на SMOTTE: Skryjomski et al 2017

Набор инструментов Python для несбалансированных наборов данных: Lemaˆıtre et al 2017