Повышение разрешения твитов с помощью SMOTE

Question

Повышение разрешения твитов с помощью SMOTE

У меня несбалансированный набор твитов, помеченных как -1, 0, +1. Я хочу уравновесить числа повышением дискретизации. Я получаю следующую ошибку:

tweet_train=tweet_train.reshape(-1, 1)
X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train)

не удалось преобразовать строку в поплавка: "از این به بعد همینهسلبریتی هایی که ایدیولوژی های #جمهوری_اسلامی رو تبلیغ می کنن خارج از مرز ایران هم حق ندارن آسایش داشته باشن و مجبور بود#باش همچنان ادا وفاداری به اون ایدیولوژی رو در بیارن چون هر جا یه دوربین منتظره که #ریاکاری شون رو ثبت کنه '

Почему он должен попытаться превратить строку в float?

PS. перед изменением формы tweet_train и y_train представляют собой массивы из множества с shape=(n,)

0

scikit-learn smote oversampling

Источник

user11411596 12 ноя '19 в 19:28

1 ответ

Другие вопросы по тегам scikit-learn smote oversampling

user10971439 12 ноя '19 в 22:31 2019-11-12 22:31 · Answer 1 · 2019-11-12 22:31

Сначала вам нужно векторизовать свои данные: например, вы можете представить твит вектором, размер которого равен количеству слов в словаре. Значения - это количество появлений слова (= столбец) в документе.

1

Источник

user10971439 12 ноя '19 в 22:31