Повышение разрешения твитов с помощью SMOTE
У меня несбалансированный набор твитов, помеченных как -1, 0, +1. Я хочу уравновесить числа повышением дискретизации. Я получаю следующую ошибку:
tweet_train=tweet_train.reshape(-1, 1)
X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train)
не удалось преобразовать строку в поплавка: "از این به بعد همینهسلبریتی هایی که ایدیولوژی های #جمهوری_اسلامی رو تبلیغ می کنن خارج از مرز ایران هم حق ندارن آسایش داشته باشن و مجبور بود#باش همچنان ادا وفاداری به اون ایدیولوژی رو در بیارن چون هر جا یه دوربین منتظره که #ریاکاری شون رو ثبت کنه '
Почему он должен попытаться превратить строку в float?
PS. перед изменением формы tweet_train и y_train представляют собой массивы из множества с shape=(n,)
1 ответ
Сначала вам нужно векторизовать свои данные: например, вы можете представить твит вектором, размер которого равен количеству слов в словаре. Значения - это количество появлений слова (= столбец) в документе.