Описание тега oversampling

Передискретизация и недостаточная выборка в анализе данных - это методы, используемые для корректировки распределения классов набора данных (т. Е. Соотношения между различными представленными классами / категориями).
0 ответов

Реализация алгоритма SMOTE в WEKA

Можно ли сохранить профиль распространения реализации SMOTE в WEKA? Как мне это сделать? Есть ли недостаток в итеративной реализации алгоритма WEKA SMOTE вместо использования процентной реализации. Вместо того, чтобы сказать 400% SMOTE, могу ли я пр…
25 мар '18 в 02:30
0 ответов

Не удалось сбалансировать большой набор данных

Я пробовал различные методы, такие как передискретизация, недостаточная выборка, ROSE и обе (избыточная выборка и недостаточная выборка) на несбалансированном наборе данных, чтобы сбалансировать набор данных. когда я применил все эти методы к неболь…
16 июл '18 в 13:31
1 ответ

Мультиклассовая классификация для баланса в питоне (по выборке)

У меня есть следующая проблема, есть проблема классификации. На трассе 50000 строк, на Y 60 этикеток. Но данные несбалансированы (в одном классе 35000 значений, в других 59 классах 15000 значений, из которых около 30 значений). Если, например, то ес…
1 ответ

Конвейер для RandomOversampler, RandomForestClassifier & GridSearchCV

Я работаю над проблемой текстовой бинарной классификации. Так как классы сильно несбалансированы, я должен использовать такие методы выборки, как RandomOversampler(). Тогда для классификации я бы использовал RandomForestClassifier (), параметры кото…
1 ответ

Превышение семпла или SMOTE в Pyspark

У меня есть 7 классов, и общее количество записей составляет 115, и я хотел запустить модель Random Forest поверх этих данных. Но так как данных недостаточно, чтобы получить высокую точность. Поэтому я хотел применить передискретизацию для всех клас…
0 ответов

Передискретизация не генерирует новые образцы

Мой набор данных имеет следующее распределение: class frequency 0 960 1 2093 2 22696 3 1116 4 2541 5 1298 6 14 я использую python-imblearn пересмотреть класс меньшинства. С regular Я могу генерировать 200 образцов класса 6, но с l1borderline или же …
1 ответ

Приведет ли избыточная выборка к переоснащенной модели?

Целевое распределение атрибута в настоящее время выглядит так: mydata.groupBy("Churn").count().show() +-----+-----+ |Churn|count| +-----+-----+ | 1| 483| | 0| 2850| +-----+-----+ Мои вопросы: методы передискретизации, такие как: manully, smote, adas…
30 сен '18 в 14:31
0 ответов

Как сообщить о результатах перекрестной проверки на бумаге: можно ли вручную выбрать лучшие результаты?

Доброе утро. Что касается интерпретации результатов N-кратной перекрестной проверки с передискретизацией (SMOTE), я поднимаю вопрос, чтобы написать статью. В настоящее время я выполнил 5-кратную перекрестную проверку путем случайного перетасовки пац…
03 авг '18 в 00:32
6 ответов

При инициализации SMOTE ожидаются n_neighbors <= n_samples, но n_samples <n_neighbors

Я уже предварительно очистил данные, и ниже показан формат верхних 4 строк: [IN] df.head() [OUT] Year cleaned 0 1909 acquaint hous receiv follow letter clerk crown... 1 1909 ask secretari state war whether issu statement... 2 1909 i beg present peti…
0 ответов

Предотвращение переоснащения в Weka с помощью SMOTE

Я использую Weka (GUI), чтобы оценить, улучшит ли добавление определенных атрибутов в набор данных результаты для проблемы двоичного типа классификации. К сожалению, существует около 50 ДА классифицированных инцидентов и 3000 НЕТ. Я использую SMOTE …
02 ноя '18 в 04:26
1 ответ

SMOTE Алгоритм и классификация: переоцененный успех предсказания

Я столкнулся с проблемой, на которую не могу найти ответ. У меня есть проблема бинарной классификации (выходной Y=0 или Y=1) с Y = 1 классом меньшинства (фактически Y = 1 означает дефолт компании, с пропорцией =0.02 в исходном кадре данных). Поэтому…
1 ответ

Может ли дисбаланс в соотношении классов в обучающем и тестовом наборе вызвать низкую точность проверки?

Я участвую в хакатоне, где мы должны предсказать, заинтересован ли пользователь в работе с учетом таких особенностей, как пол, город, часы обучения, опыт, текущая компания и т. Д. В обучающем наборе около 90% не заинтересованы в работе, а только 10%…
0 ответов

Стандартизация, избыточная выборка и GridSearchCV

Я использую код, указанный ниже. #Import Required Libraries from imblearn.over_sampling import SMOTE from imblearn.over_sampling import RandomOverSampler from imblearn.pipeline import Pipeline as imbPipeline from sklearn import tree from sklearn imp…
0 ответов

Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R на наборе данных, но общая точность, достигнутая в модели, слишком высока (99,8%?), И дерево огромно со многими разбиениями. Это будет признаком переоборудованной модели? Сокращен…
05 ноя '18 в 15:22
0 ответов

Цвет синтезированных элементов с использованием oversample, matplotlib.pyplot python

Я использую следующий код для загрузки набора данных, для выполнения передискретизации с использованием алгоритма ADASYN и для построения результатов процесса передискретизации. import matplotlib.pyplot as plt from sklearn.datasets import make_class…
23 ноя '18 в 11:41
1 ответ

Дублирование обучающих примеров для обработки дисбаланса класса в кадре данных pandas

У меня есть DataFrame в пандах, которые содержат обучающие примеры, например: feature1 feature2 class 0 0.548814 0.791725 1 1 0.715189 0.528895 0 2 0.602763 0.568045 0 3 0.544883 0.925597 0 4 0.423655 0.071036 0 5 0.645894 0.087129 0 6 0.437587 0.02…
22 янв '18 в 00:10
0 ответов

Ошибка в примере избыточной выборки в R

Я бегу ниже код для передискретизации в R varNames1 = paste0("Quote.Type","+","Quote.State","+","Forecast.Type","+","Suggested.Reseller.Discount","+","Territory","+","Pricing.Type") ctrl &lt;- trainControl(method = "repeatedcv", number = 10, repeats…
30 июл '18 в 10:20
0 ответов

Неуравновешенный-Изучите Случайное По Сэмплеру, удаляющему колонки

Я тренирую классификатор по нескольким меткам, чтобы предсказать "коды" для конкретных комментариев. В моем тренировочном наборе есть столбец с текстом, а другой - со списком кодов (от 1 до 3), который я пытаюсь предсказать. Когда я бегу: from sklea…
1 ответ

Каков наилучший способ перевыбора фрейма данных с сохранением его статистических свойств в Python 3?

У меня есть следующая игрушка DF: FilterSystemO2Concentration (Percentage) ProcessChamberHumidityAbsolute (g/m3) ProcessChamberPressure (mbar) 0 0.156 1 29.5 28.4 29.6 28.4 2 0.149 1.3 29.567 28.9 3 0.149 1 29.567 28.9 4 0.148 1.6 29.6 29.4 Это всег…
0 ответов

Использование Resample в Weka для балансировки наборов данных

Мне нужно использовать Resample в Weka, чтобы сбалансировать наборы данных путем передискретизации, недостаточной дискретизации, SMOTE и ROSE. Я знаю, что в Weka есть фильтр SMOTE, поэтому я смог разобраться в этом методе. Однако, когда я использую …
02 ноя '18 в 07:10