Неуравновешенный-Изучите Случайное По Сэмплеру, удаляющему колонки
Я тренирую классификатор по нескольким меткам, чтобы предсказать "коды" для конкретных комментариев. В моем тренировочном наборе есть столбец с текстом, а другой - со списком кодов (от 1 до 3), который я пытаюсь предсказать.
Когда я бегу:
from sklearn.preprocessing import MultiLabelBinarizer
from imblearn.over_sampling import RandomOverSampler
multilabel_binarizer = MultiLabelBinarizer()
multilabel_binarizer.fit(df.Code)
Y = multilabel_binarizer.transform(df.Code)
ros = RandomOverSampler(random_state=42)
X_resampled, Y_resampled = ros.fit_sample(X, Y)
Y имеет форму (12000, 168), но Y_resampled имеет форму (150000,166). Я просмотрел исходный код, но не могу понять, почему исчезают столбцы. Если у кого-то есть какие-либо предложения, это будет полезно.
Спасибо!