Описание тега imbalanced-data
2
ответа
Использование SMOTE со значениями NaN
Есть ли способ использовать SMOTE с NaNs? Вот фиктивная прога, чтобы попробовать использовать SMOTE при наличии значений NaN # Imports from collections import Counter import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.pr…
12 авг '19 в 09:22
1
ответ
Как взять более сбалансированный образец данных Python
У меня есть датафрейм с процентной информацией. Например. Количество слов в процентах 2,0 1282 0,267345 1,0 888 0,185213 3,0 1124 0,170791 4,0 1250 0,152877 5,0 554 0,084864 6,0 333 0,058904 7,0 160 0,024290 8,0 111 0,016851 Весь процент может быть …
19 авг '19 в 06:32
1
ответ
Получить индексы только для пересчитанных экземпляров после передискретизации с помощью imbalanced-learn?
Для проблемы классификации двоичного текста с несбалансированными данными я использую функцию библиотеки imbalanced-learn RandomOverSampler сбалансировать классы. Теперь я хочу получить только те экземпляры, которые были передискретизированы (реплиц…
12 авг '19 в 18:41
1
ответ
Многофункциональное моделирование на основе одной двоичной функции, которая редко 1
Мне нужно смоделировать данные временного ряда для нескольких объектов на основе только одной двоичной функции, которая редко равна 1. Это означает, что мы хотим, чтобы модель на основе одной функции была двоичной, редко 1? Какое решение предлагаетс…
21 авг '19 в 03:32
0
ответов
Операция имеет `None` для градиента. Обычные операции без градиента: K.argmax, K.round, K.eval
У меня возникла проблема с отчетом о точности и отзыве, так как их значение для положительного класса намного меньше, около 15%. Поэтому, чтобы исправить это, я написал собственный код для функции потерь, который не является правильным и выдает ошиб…
22 авг '19 в 06:54
0
ответов
Борьба с дисбалансом классов с помощью правильной функции потерь: IoU, Dice или Dice 2-класса?
В настоящее время я работаю над диссертацией бакалавра и сталкиваюсь с некоторыми трудностями, пытаясь понять различия в функциях потерь в отношении дисбаланса класса и самого дисбаланса класса. Я работаю над проблемой сегментации с изменением U-Net…
26 авг '19 в 22:37
2
ответа
Как правильно разделить несбалансированный набор данных для обучения и тестирования?
У меня есть набор данных задержки рейса, и я пытаюсь разделить набор на поезд и проверить набор перед отбором проб. Своевременные случаи составляют около 80% от общего объема данных, а задержанные случаи составляют около 20%. Обычно в машинном обуче…
27 июл '19 в 09:34
0
ответов
CNN использует EarlyStopping путем обучения с несбалансированным набором данных - настройка class_weights и f1-score
Я хочу использовать EarlyStopping для обучения CNN с очень несбалансированным набором данных. Я читал об установке весов классов следующим образом: class_weights = class_weight.compute_class_weight('balanced', np.unique(y_train), y_train)) model.fit…
08 янв '20 в 14:27
0
ответов
У меня есть данные с несколькими классами, и классы сильно несбалансированы, причем количество классов 1 является минимальным количеством?
У меня есть данные с 1720 уникальными классами. Счетчик каждого класса находится в диапазоне от 1 до 820, где 231 класс имеет счетчик 1. Я пробовал удар, но он выдает ошибку "ValueError: ожидаемые n_neighbors <= n_samples, но n_samples = 1, n_neighb…
29 апр '20 в 14:30
0
ответов
Невозможно уместить текстовые данные с помощью SMOTE, SMOTE-NC, но удалось запустить код на RandomOverSampling.
Мы написали следующий код, в котором нам нужно классифицировать данный документ по отрасли, к которой он принадлежит. Но фактические данные сильно несбалансированы, поэтому мы подумали о применении методов передискретизации для повышения предсказуем…
24 янв '20 в 10:33
1
ответ
Как исправить дисбаланс классов в диалоговых (текстовых) данных временных рядов?
У меня есть набор данных, который выглядит так: df.head(5) data labels 0 [0.0009808844009380855, 0.0008974465127279559] 1 1 [0.0007158940267629654, 0.0008202958833774329] 3 2 [0.00040971929722210984, 0.000393972522972382] 3 3 [7.916243163372941e-05,…
05 май '20 в 21:17
1
ответ
Почему мы используем убытки для обновления нашей модели, но используем метрики для выбора нужной нам модели?
Прежде всего, меня смущает, почему мы используем потери для обновления модели, но используем метрики для выбора нужной нам модели. Может быть, не весь код, но большая часть кода, который я видел, использует EarlyStopping для отслеживания метрик в да…
02 сен '19 в 14:49
2
ответа
Использование imbalanced-learn с Pandas DataFrame
Мой набор данных довольно несбалансирован. Каждый из двух классов меньшинства содержит половину выборки в классе большинства. Моя модель RNN ничего не может узнать о наименее населенном классе. Я пытаюсь использовать imbalanced-learnбиблиотека. Напр…
02 сен '19 в 14:30
1
ответ
Взвешивание выборки не помогло в обучении несбалансированных данных
Я тренирую двухслойную сеть LSTM с 16-32 ячейками в каждом слое и имел довольно несбалансированный набор данных для обучения. Основываясь на моих семи частотах классов, веса выборки, вычисленные по простой формуле total_samples/class_frequency, равн…
10 сен '19 в 22:23
1
ответ
Максимизируйте функцию в задаче двоичной классификации в keras
Я здесь впервые. Не знаю, ясно ли было мое слово. Я пытаюсь применить глубокое обучение (FCN) для проблемы двоичной классификации с дисбалансом высокого класса (0: 48887, 1:8862). Я хочу максимизировать следующую функцию: (#true_positive*165 - #fals…
27 сен '19 в 16:50
0
ответов
Как я могу значительно улучшить отчет о классификации одного класса с помощью ансамблевой модели?
У меня есть набор данных, включающий {0: 6624, 1: 75} 0 для предложений ненаблюдения и 1 для предложений наблюдения. (в основном я аннотирую свои предложения, используя распознавание именованных сущностей, если есть конкретная сущность, такая как ДА…
07 окт '19 в 13:28
1
ответ
Как использовать комбинацию передискретизации и недостаточной выборки? с несбалансированным обучением
Я хочу выполнить повторную выборку некоторых больших данных (размеры классов: 8 миллионов против 2700). Я хотел бы иметь 50 000 выборок каждого класса с передискретизацией класса 2 и недостаточной выборки класса 1. imblearn, похоже, предлагает комби…
12 окт '19 в 12:52
1
ответ
Для несбалансированного набора данных лучше использовать методы передискретизации или недостаточной выборки?
У меня проблема с двоичной классификацией, когда набор данных несбалансирован, я не знаю, что использовать между недостаточной и избыточной выборкой!!
18 окт '19 в 13:04
0
ответов
R-caret: как использовать веса классов вместе с downSample для решения проблемы дисбаланса классов?
У меня очень несбалансированный набор данных. Чтобы справиться с этой проблемой, я пробовал по отдельности разные методы дисбаланса классов: downSample, веса классов, настройка порогов. Среди них настройка порога оказалась наименее эффективной. Испо…
24 окт '19 в 22:41
0
ответов
У меня есть ошибка в пропущенных значениях, недопустимых в индексных назначениях фреймов данных
Я новичок в R, и я создаю коды R для своего личного проекта / упражнения. Данные, которые я использую, касаются обследования этнической идентичности жителей Гонконга. Я использовал данные за 2019 год из http://data.hkupop.hku.hk/v3/hkupop/ethnic_ide…
25 окт '19 в 12:17