Описание тега oversampling

Вопросы с тегом

Передискретизация и недостаточная выборка в анализе данных - это методы, используемые для корректировки распределения классов набора данных (т. Е. Соотношения между различными представленными классами / категориями).

0 ответов

Реализация алгоритма SMOTE в WEKA

Можно ли сохранить профиль распространения реализации SMOTE в WEKA? Как мне это сделать? Есть ли недостаток в итеративной реализации алгоритма WEKA SMOTE вместо использования процентной реализации. Вместо того, чтобы сказать 400% SMOTE, могу ли я пр…

25 мар '18 в 02:30

0 ответов

Не удалось сбалансировать большой набор данных

Я пробовал различные методы, такие как передискретизация, недостаточная выборка, ROSE и обе (избыточная выборка и недостаточная выборка) на несбалансированном наборе данных, чтобы сбалансировать набор данных. когда я применил все эти методы к неболь…

r oversampling

16 июл '18 в 13:31

1 ответ

Мультиклассовая классификация для баланса в питоне (по выборке)

У меня есть следующая проблема, есть проблема классификации. На трассе 50000 строк, на Y 60 этикеток. Но данные несбалансированы (в одном классе 35000 значений, в других 59 классах 15000 значений, из которых около 30 значений). Если, например, то ес…

python python-3.x classification sample oversampling

10 июн '18 в 18:47

1 ответ

Конвейер для RandomOversampler, RandomForestClassifier & GridSearchCV

Я работаю над проблемой текстовой бинарной классификации. Так как классы сильно несбалансированы, я должен использовать такие методы выборки, как RandomOversampler(). Тогда для классификации я бы использовал RandomForestClassifier (), параметры кото…

python scikit-learn random-forest grid-search oversampling

26 янв '18 в 12:32

1 ответ

Превышение семпла или SMOTE в Pyspark

У меня есть 7 классов, и общее количество записей составляет 115, и я хотел запустить модель Random Forest поверх этих данных. Но так как данных недостаточно, чтобы получить высокую точность. Поэтому я хотел применить передискретизацию для всех клас…

machine-learning pyspark random-forest oversampling

26 дек '18 в 20:31

0 ответов

Передискретизация не генерирует новые образцы

Мой набор данных имеет следующее распределение: class frequency 0 960 1 2093 2 22696 3 1116 4 2541 5 1298 6 14 я использую python-imblearn пересмотреть класс меньшинства. С regular Я могу генерировать 200 образцов класса 6, но с l1borderline или же …

python python-2.7 machine-learning scikit-learn oversampling

24 янв '18 в 07:04

1 ответ

Приведет ли избыточная выборка к переоснащенной модели?

Целевое распределение атрибута в настоящее время выглядит так: mydata.groupBy("Churn").count().show() +-----+-----+ |Churn|count| +-----+-----+ | 1| 483| | 0| 2850| +-----+-----+ Мои вопросы: методы передискретизации, такие как: manully, smote, adas…

python model classification oversampling

30 сен '18 в 14:31

0 ответов

Как сообщить о результатах перекрестной проверки на бумаге: можно ли вручную выбрать лучшие результаты?

Доброе утро. Что касается интерпретации результатов N-кратной перекрестной проверки с передискретизацией (SMOTE), я поднимаю вопрос, чтобы написать статью. В настоящее время я выполнил 5-кратную перекрестную проверку путем случайного перетасовки пац…

cross-validation oversampling

03 авг '18 в 00:32

6 ответов

При инициализации SMOTE ожидаются n_neighbors <= n_samples, но n_samples <n_neighbors

Я уже предварительно очистил данные, и ниже показан формат верхних 4 строк: [IN] df.head() [OUT] Year cleaned 0 1909 acquaint hous receiv follow letter clerk crown... 1 1909 ask secretari state war whether issu statement... 2 1909 i beg present peti…

python scikit-learn knn tf-idf imblearn oversampling

20 мар '18 в 23:48

0 ответов

Предотвращение переоснащения в Weka с помощью SMOTE

Я использую Weka (GUI), чтобы оценить, улучшит ли добавление определенных атрибутов в набор данных результаты для проблемы двоичного типа классификации. К сожалению, существует около 50 ДА классифицированных инцидентов и 3000 НЕТ. Я использую SMOTE …

classification weka oversampling

02 ноя '18 в 04:26

1 ответ

SMOTE Алгоритм и классификация: переоцененный успех предсказания

Я столкнулся с проблемой, на которую не могу найти ответ. У меня есть проблема бинарной классификации (выходной Y=0 или Y=1) с Y = 1 классом меньшинства (фактически Y = 1 означает дефолт компании, с пропорцией =0.02 в исходном кадре данных). Поэтому…

r machine-learning cross-validation oversampling

06 ноя '18 в 13:47

1 ответ

Может ли дисбаланс в соотношении классов в обучающем и тестовом наборе вызвать низкую точность проверки?

Я участвую в хакатоне, где мы должны предсказать, заинтересован ли пользователь в работе с учетом таких особенностей, как пол, город, часы обучения, опыт, текущая компания и т. Д. В обучающем наборе около 90% не заинтересованы в работе, а только 10%…

machine-learning deep-learning data-science oversampling

20 июл '18 в 02:28

0 ответов

Стандартизация, избыточная выборка и GridSearchCV

Я использую код, указанный ниже. #Import Required Libraries from imblearn.over_sampling import SMOTE from imblearn.over_sampling import RandomOverSampler from imblearn.pipeline import Pipeline as imbPipeline from sklearn import tree from sklearn imp…

python machine-learning scikit-learn oversampling

04 фев '19 в 04:48

0 ответов

Несбалансированные данные, дерево регрессии и избыточная выборка SMOTE

Я пытаюсь построить двоичное дерево классификации с пакетом rpart в R на наборе данных, но общая точность, достигнутая в модели, слишком высока (99,8%?), И дерево огромно со многими разбиениями. Это будет признаком переоборудованной модели? Сокращен…

tree classification rpart oversampling

05 ноя '18 в 15:22

0 ответов

Цвет синтезированных элементов с использованием oversample, matplotlib.pyplot python

Я использую следующий код для загрузки набора данных, для выполнения передискретизации с использованием алгоритма ADASYN и для построения результатов процесса передискретизации. import matplotlib.pyplot as plt from sklearn.datasets import make_class…

python matplotlib colors graphics oversampling

23 ноя '18 в 11:41

1 ответ

Дублирование обучающих примеров для обработки дисбаланса класса в кадре данных pandas

У меня есть DataFrame в пандах, которые содержат обучающие примеры, например: feature1 feature2 class 0 0.548814 0.791725 1 1 0.715189 0.528895 0 2 0.602763 0.568045 0 3 0.544883 0.925597 0 4 0.423655 0.071036 0 5 0.645894 0.087129 0 6 0.437587 0.02…

python pandas machine-learning oversampling

22 янв '18 в 00:10

0 ответов

Ошибка в примере избыточной выборки в R

Я бегу ниже код для передискретизации в R varNames1 = paste0("Quote.Type","+","Quote.State","+","Forecast.Type","+","Suggested.Reseller.Discount","+","Territory","+","Pricing.Type") ctrl <- trainControl(method = "repeatedcv", number = 10, repeats…

r random-forest oversampling

30 июл '18 в 10:20

0 ответов

Неуравновешенный-Изучите Случайное По Сэмплеру, удаляющему колонки

Я тренирую классификатор по нескольким меткам, чтобы предсказать "коды" для конкретных комментариев. В моем тренировочном наборе есть столбец с текстом, а другой - со списком кодов (от 1 до 3), который я пытаюсь предсказать. Когда я бегу: from sklea…

python scikit-learn classification text-classification oversampling

08 ноя '18 в 16:57

1 ответ

Каков наилучший способ перевыбора фрейма данных с сохранением его статистических свойств в Python 3?

У меня есть следующая игрушка DF: FilterSystemO2Concentration (Percentage) ProcessChamberHumidityAbsolute (g/m3) ProcessChamberPressure (mbar) 0 0.156 1 29.5 28.4 29.6 28.4 2 0.149 1.3 29.567 28.9 3 0.149 1 29.567 28.9 4 0.148 1.6 29.6 29.4 Это всег…

python python-3.x dataframe resampling oversampling

13 фев '19 в 11:31

0 ответов

Использование Resample в Weka для балансировки наборов данных

Мне нужно использовать Resample в Weka, чтобы сбалансировать наборы данных путем передискретизации, недостаточной дискретизации, SMOTE и ROSE. Я знаю, что в Weka есть фильтр SMOTE, поэтому я смог разобраться в этом методе. Однако, когда я использую …

weka oversampling

02 ноя '18 в 07:10