Smote - это аббревиатура от Synthetic Minority Oversampling TEchnique. Этот тег относится к методу передискретизации, который обычно используется в машинном обучении для балансировки распределений классов в наборах данных путем введения новых примеров классов меньшинств.
2 ответа

Использование SMOTE со значениями NaN

Есть ли способ использовать SMOTE с NaNs? Вот фиктивная прога, чтобы попробовать использовать SMOTE при наличии значений NaN # Imports from collections import Counter import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.pr…
12 авг '19 в 09:22
0 ответов

Как проверить правильность передискретизации SMOTE?

Я сделал SMOTE передискретизацию на моем фрейме данных. Как я могу проверить, правильно ли сделаны результаты SMOTE с передискретизацией или нет? Я использовал:sm = SMOTE(sampling_strategy='not majority',random_state=42,k_neighbors=30) x_train_res, …
0 ответов

Ошибка несоответствия Xgboost+smote feature_names

Я пытаюсь сделать передискретизацию с помощью SMOTE, потому что мои данные сильно разбалансированы. full_df = pd.concat([X, y], axis=1) print (y.value_counts()) 1 45177 0 1808 Name: event_type, dtype: int64 X = df_events.drop('target', axis=1) y = d…
30 авг '19 в 11:36
2 ответа

Работа с данными дисбаланса для кадра данных измерений (13961,862) после кодирования для классификации проблем точности

У меня есть данные измерения (13961,48) вначале, а после одного горячего кодирования, а также базового массирования данных измерение наблюдается вокруг (13961,862). данные представляют собой дисбаланс с двумя категориями "удержано" около 6% и "не уд…
0 ответов

Использование SMOTE для несбалансированных данных

При выполнении SMOTE я получаю следующую ошибку. "Ошибка в матрице (if (is.null(value)) logical() else value, nrow = nr, dimnames = list(rn,: length of 'dimnames' [2] not equal to array extension" Ниже мой код bal.m <- SMOTE (По умолчанию ~., (LD.tr…
11 мар '20 в 06:09
1 ответ

Повышение разрешения твитов с помощью SMOTE

У меня несбалансированный набор твитов, помеченных как -1, 0, +1. Я хочу уравновесить числа повышением дискретизации. Я получаю следующую ошибку: tweet_train=tweet_train.reshape(-1, 1) X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_…
12 ноя '19 в 19:28
0 ответов

Как исправить ошибку ValueError при реализации конвейера в keras

В настоящее время я изучаю питон и еще не владею им. Я столкнулся с этой ошибкой при попытке реализовать нейронную сеть с использованием keras. Я не знаю, как это сделать, пожалуйста, помогите. Мой код: smt=SMOTE() model = Sequential() model.add(Den…
04 июн '20 в 02:25
0 ответов

Ошибка импорта Python: невозможно импортировать имя 'шесть' при импорте SMOTE

Я делал классификацию с помощью мультикласса с несбалансированными данными, а для передискретизации я использовал технологию SMOTE. я сделал импорт с этой строкой from imblearn.over_sampling import SMOTE но я получаю эту ошибку ImportErrorTraceback …
17 авг '20 в 18:39
1 ответ

вариационная задача сита для регрессии

Я работаю над оценкой продаж билетов с недостаточными и несбалансированными данными. Чтобы решить эту проблему, я использую сглаживание (сглаживание для регрессии) из пакета smogn. Но каждый раз, когда я запускаю свою модель, я получаю разные прогно…
07 фев '20 в 19:26
0 ответов

Мультиноминальный наивный байесовский анализ с SMOTE при анализе настроений

Пожалуйста , помогите мне, я действительно застрял в алгоритме, как мультиноминальный наивный байес классифицирует анализ тональности текста после применения SMOTE к данным
18 май '20 в 13:53
0 ответов

Невозможно уместить текстовые данные с помощью SMOTE, SMOTE-NC, но удалось запустить код на RandomOverSampling.

Мы написали следующий код, в котором нам нужно классифицировать данный документ по отрасли, к которой он принадлежит. Но фактические данные сильно несбалансированы, поэтому мы подумали о применении методов передискретизации для повышения предсказуем…
1 ответ

SMOTENC: не удалось преобразовать строку в число с плавающей запятой

У меня есть несбалансированные данные, что процент M составляет 80%, а F 20%. Ниже приведен пример данных: NAME COUNTRY HEIGHT HANDPHONE TYPE GENDER NOVI USA 160 samsung SM-G610F F JOHN JAPAN 181 vivo 1718 M RICHARD UK 175 samsung SM-G532G M ANTHONY…
03 окт '19 в 10:47
0 ответов

У меня есть ошибка в пропущенных значениях, недопустимых в индексных назначениях фреймов данных

Я новичок в R, и я создаю коды R для своего личного проекта / упражнения. Данные, которые я использую, касаются обследования этнической идентичности жителей Гонконга. Я использовал данные за 2019 год из http://data.hkupop.hku.hk/v3/hkupop/ethnic_ide…
25 окт '19 в 12:17
0 ответов

ValueError: не удалось преобразовать строку в число с плавающей запятой SMOTE fit_sample Python Oversampling

У меня есть набор данных анализа кредитного риска, который выглядит следующим образом: Loan_ID Age Income(LPA) Employed_yr Education Loan_status 1 18 2.4 1 12th 1 2 46 43 26 Post Grad 0 3 22 12 4 Grad 0 4 25 17 1 Grad 1 1 означает дефолт, а 0 означа…
27 окт '19 в 23:53
1 ответ

Должен ли я выполнять GridSearch (для настройки гиперпараметров) до или после SMOTE?

Я использую несбалансированные данные для выполнения классификации с помощью scikit-learn, а для повышения точности модели я создал больше синтетических данных с помощью техники SMOTE. Я хочу узнать лучший момент для реализации оптимизации гиперпара…
1 ответ

Масштабирование данных перед вызовом SMOTENC для непрерывных и категориальных функций

Пока что мой код для запуска SMOTENC следующий. from imblearn.over_sampling import SMOTENC smt = SMOTENC(random_state=seed, categorical_features=[10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,4…
07 ноя '19 в 17:42
1 ответ

Функция SMOTE не работает в make_pipeline

Я хочу одновременно применить перекрестную проверку и передискретизацию. Я получаю из этого кода следующую ошибку: from sklearn.pipeline import Pipeline, make_pipeline imba_pipeline = make_pipeline(SMOTE(random_state=42), LogisticRegression(C=3.4)) …
0 ответов

Вариация вывода логистической регрессии при использовании SMOTE

Я работаю над случаем логистической регрессии с дисбалансом целевой переменной. Чтобы исправить это, я использую SMOTE (метод синтетической передискретизации меньшинства), но каждый раз, когда я запускаю свою регрессионную модель, я получаю разные ч…
0 ответов

SMOTE с более чем 2 классами?

Я работаю в R с набором данных олимпийских данных, который очень несбалансирован, и ищу способ соответствующим образом сбалансировать данные. Изучив некоторые из них, я обнаружил, что ROSE прекрасно работает, однако, только с двумя классами. У меня …
22 ноя '19 в 20:28
0 ответов

Проблема с использованием функции SMOTE() из пакета DMwR

Я работаю над набором данных Kaggle: https://www.kaggle.com/mlg-ulb/creditcardfraud Мне приходится сталкиваться с несбалансированными данными. Действительно, существует 492 мошеннических транзакции и 284315 не-мошеннических транзакций. Я настроил об…
19 сен '19 в 18:01