Описание тега oversampling
Передискретизация и недостаточная выборка в анализе данных - это методы, используемые для корректировки распределения классов набора данных (т. Е. Соотношения между различными представленными классами / категориями).
0
ответов
Реализация алгоритма SMOTE в WEKA
Можно ли сохранить профиль распространения реализации SMOTE в WEKA? Как мне это сделать? Есть ли недостаток в итеративной реализации алгоритма WEKA SMOTE вместо использования процентной реализации. Вместо того, чтобы сказать 400% SMOTE, могу ли я пр…
25 мар '18 в 02:30
0
ответов
Не удалось сбалансировать большой набор данных
Я пробовал различные методы, такие как передискретизация, недостаточная выборка, ROSE и обе (избыточная выборка и недостаточная выборка) на несбалансированном наборе данных, чтобы сбалансировать набор данных. когда я применил все эти методы к неболь…
16 июл '18 в 13:31
1
ответ
Мультиклассовая классификация для баланса в питоне (по выборке)
У меня есть следующая проблема, есть проблема классификации. На трассе 50000 строк, на Y 60 этикеток. Но данные несбалансированы (в одном классе 35000 значений, в других 59 классах 15000 значений, из которых около 30 значений). Если, например, то ес…
10 июн '18 в 18:47
1
ответ
Конвейер для RandomOversampler, RandomForestClassifier & GridSearchCV
Я работаю над проблемой текстовой бинарной классификации. Так как классы сильно несбалансированы, я должен использовать такие методы выборки, как RandomOversampler(). Тогда для классификации я бы использовал RandomForestClassifier (), параметры кото…
26 янв '18 в 12:32
1
ответ
Превышение семпла или SMOTE в Pyspark
У меня есть 7 классов, и общее количество записей составляет 115, и я хотел запустить модель Random Forest поверх этих данных. Но так как данных недостаточно, чтобы получить высокую точность. Поэтому я хотел применить передискретизацию для всех клас…
26 дек '18 в 20:31
0
ответов
Передискретизация не генерирует новые образцы
Мой набор данных имеет следующее распределение: class frequency 0 960 1 2093 2 22696 3 1116 4 2541 5 1298 6 14 я использую python-imblearn пересмотреть класс меньшинства. С regular Я могу генерировать 200 образцов класса 6, но с l1borderline или же …
24 янв '18 в 07:04
1
ответ
Приведет ли избыточная выборка к переоснащенной модели?
Целевое распределение атрибута в настоящее время выглядит так: mydata.groupBy("Churn").count().show() +-----+-----+ |Churn|count| +-----+-----+ | 1| 483| | 0| 2850| +-----+-----+ Мои вопросы: методы передискретизации, такие как: manully, smote, adas…
30 сен '18 в 14:31
0
ответов
Как сообщить о результатах перекрестной проверки на бумаге: можно ли вручную выбрать лучшие результаты?
Доброе утро. Что касается интерпретации результатов N-кратной перекрестной проверки с передискретизацией (SMOTE), я поднимаю вопрос, чтобы написать статью. В настоящее время я выполнил 5-кратную перекрестную проверку путем случайного перетасовки пац…
03 авг '18 в 00:32
6
ответов
При инициализации SMOTE ожидаются n_neighbors <= n_samples, но n_samples <n_neighbors
Я уже предварительно очистил данные, и ниже показан формат верхних 4 строк: [IN] df.head() [OUT] Year cleaned 0 1909 acquaint hous receiv follow letter clerk crown... 1 1909 ask secretari state war whether issu statement... 2 1909 i beg present peti…
20 мар '18 в 23:48
0
ответов
Предотвращение переоснащения в Weka с помощью SMOTE
Я использую Weka (GUI), чтобы оценить, улучшит ли добавление определенных атрибутов в набор данных результаты для проблемы двоичного типа классификации. К сожалению, существует около 50 ДА классифицированных инцидентов и 3000 НЕТ. Я использую SMOTE …
02 ноя '18 в 04:26
1
ответ
SMOTE Алгоритм и классификация: переоцененный успех предсказания
Я столкнулся с проблемой, на которую не могу найти ответ. У меня есть проблема бинарной классификации (выходной Y=0 или Y=1) с Y = 1 классом меньшинства (фактически Y = 1 означает дефолт компании, с пропорцией =0.02 в исходном кадре данных). Поэтому…
06 ноя '18 в 13:47
1
ответ
Может ли дисбаланс в соотношении классов в обучающем и тестовом наборе вызвать низкую точность проверки?
Я участвую в хакатоне, где мы должны предсказать, заинтересован ли пользователь в работе с учетом таких особенностей, как пол, город, часы обучения, опыт, текущая компания и т. Д. В обучающем наборе около 90% не заинтересованы в работе, а только 10%…
20 июл '18 в 02:28
0
ответов
Стандартизация, избыточная выборка и GridSearchCV
Я использую код, указанный ниже. #Import Required Libraries from imblearn.over_sampling import SMOTE from imblearn.over_sampling import RandomOverSampler from imblearn.pipeline import Pipeline as imbPipeline from sklearn import tree from sklearn imp…
04 фев '19 в 04:48
0
ответов
Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE
Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R на наборе данных, но общая точность, достигнутая в модели, слишком высока (99,8%?), И дерево огромно со многими разбиениями. Это будет признаком переоборудованной модели? Сокращен…
05 ноя '18 в 15:22
0
ответов
Цвет синтезированных элементов с использованием oversample, matplotlib.pyplot python
Я использую следующий код для загрузки набора данных, для выполнения передискретизации с использованием алгоритма ADASYN и для построения результатов процесса передискретизации. import matplotlib.pyplot as plt from sklearn.datasets import make_class…
23 ноя '18 в 11:41
1
ответ
Дублирование обучающих примеров для обработки дисбаланса класса в кадре данных pandas
У меня есть DataFrame в пандах, которые содержат обучающие примеры, например: feature1 feature2 class 0 0.548814 0.791725 1 1 0.715189 0.528895 0 2 0.602763 0.568045 0 3 0.544883 0.925597 0 4 0.423655 0.071036 0 5 0.645894 0.087129 0 6 0.437587 0.02…
22 янв '18 в 00:10
0
ответов
Ошибка в примере избыточной выборки в R
Я бегу ниже код для передискретизации в R varNames1 = paste0("Quote.Type","+","Quote.State","+","Forecast.Type","+","Suggested.Reseller.Discount","+","Territory","+","Pricing.Type") ctrl <- trainControl(method = "repeatedcv", number = 10, repeats…
30 июл '18 в 10:20
0
ответов
Неуравновешенный-Изучите Случайное По Сэмплеру, удаляющему колонки
Я тренирую классификатор по нескольким меткам, чтобы предсказать "коды" для конкретных комментариев. В моем тренировочном наборе есть столбец с текстом, а другой - со списком кодов (от 1 до 3), который я пытаюсь предсказать. Когда я бегу: from sklea…
08 ноя '18 в 16:57
1
ответ
Каков наилучший способ перевыбора фрейма данных с сохранением его статистических свойств в Python 3?
У меня есть следующая игрушка DF: FilterSystemO2Concentration (Percentage) ProcessChamberHumidityAbsolute (g/m3) ProcessChamberPressure (mbar) 0 0.156 1 29.5 28.4 29.6 28.4 2 0.149 1.3 29.567 28.9 3 0.149 1 29.567 28.9 4 0.148 1.6 29.6 29.4 Это всег…
13 фев '19 в 11:31
0
ответов
Использование Resample в Weka для балансировки наборов данных
Мне нужно использовать Resample в Weka, чтобы сбалансировать наборы данных путем передискретизации, недостаточной дискретизации, SMOTE и ROSE. Я знаю, что в Weka есть фильтр SMOTE, поэтому я смог разобраться в этом методе. Однако, когда я использую …
02 ноя '18 в 07:10