Описание тега imblearn

Пакет обучения Python Imbalanced. Чтобы улучшить результаты или скорость процесса обучения в алгоритмах машинного обучения на наборах данных, где один или несколько классов имеют значительно меньше / больше обучающих примеров, вы можете использовать несбалансированный подход к обучению. В методах несбалансированного обучения используются методы повторной выборки, такие как SMOTE, ADASYN, ссылки Tomek, а также их различные комбинации.

imbalanced-learn- это пакет Python, предлагающий ряд методов повторной выборки, обычно используемых в наборах данных, демонстрирующих сильный межклассовый дисбаланс. Он совместим сscikit-learn и является частью scikit-learn-contrib проекты.

Большинство алгоритмов классификации будут работать оптимально только тогда, когда количество образцов каждого класса примерно одинаково. Наборы данных с сильным перекосом, в которых меньшинство значительно превосходит численностью одного или нескольких классов, оказались проблемой, но в то же время становятся все более и более распространенными.

Один из способов решения этой проблемы - повторная выборка набора данных, чтобы компенсировать этот дисбаланс в надежде прийти к более надежной и справедливой границе принятия решений, чем вы могли бы в противном случае.

Методы повторной выборки делятся на две категории:

    Under-sampling the majority class(es).
    Over-sampling the minority class.
    Combining over- and under-sampling.
    Create ensemble balanced sets.

Ниже приведен список методов, реализованных в настоящее время в этом модуле.

Недостаточная выборка

  1. Недостаточная выборка случайным большинством с заменой
  2. Извлечение ссылок Томек большинства-меньшинства
  3. Недостаточная выборка с кластерными центроидами
  4. NearMiss-(1, 2 и 3)
  5. Сжатый ближайший сосед
  6. Односторонний выбор
  7. Правило уборки в районе
  8. Отредактировано ближайших соседей
  9. Порог жесткости экземпляра
    1. Повторно отредактированные ближайшие соседи
    2. AllKNN

Чрезмерные выборки12. Случайного меньшинства передискретизации с заменой 13. поражал - Синтетический Minority передискретизации Техника 14. bSMOTE(1 & 2) - Пограничный поражал типов 1 и 2 15. SVM поражал - Поддержка векторы поражали 16. ADASYN - Подход адаптивной синтетической выборки для несбалансированного обучения

  1. Избыточная выборка с последующей недостаточной выборкой

    • SMOTE + Tomek ссылки
    • SMOTE + ENN
  2. Классификатор ансамбля, использующий внутренние сэмплеры

    • EasyEnsemble
    • Баланс Каскад
    • Сбалансированный случайный лес
    • Сбалансированная упаковка

Ресурсы: