Столбец-вектор у был пропущен, когда ожидался массив 1d

Question

Столбец-вектор у был пропущен, когда ожидался массив 1d

Мне нужно соответствовать RandomForestRegressor от sklearn.ensemble,

forest = ensemble.RandomForestRegressor(**RF_tuned_parameters)
model = forest.fit(train_fold, train_y)
yhat = model.predict(test_fold)

Этот код всегда работал, пока я не сделал некоторую предварительную обработку данных (train_y). Сообщение об ошибке говорит:

DataConversionWarning: вектор-столбец y был передан, когда ожидался массив 1d. Пожалуйста, измените форму y на (n_samples,), например, используя ravel().
модель = forest.fit(train_fold, train_y)

предварительно train_y был Серией, теперь это массив NumPy (это столбец-вектор). Если я подам заявку train_y.ravel(), затем он становится вектором строки, и сообщение об ошибке не появляется, поскольку этап прогнозирования занимает очень много времени (на самом деле он никогда не заканчивается...).

В документах RandomForestRegressor я нашел это train_y должен быть определен как y : array-like, shape = [n_samples] or [n_samples, n_outputs]Есть идеи, как решить эту проблему?

240

python pandas numpy scikit-learn

Источник

user1089623 08 дек '15 в 20:47

9 ответов

Другие вопросы по тегам python pandas numpy scikit-learn

user2498151 20 мар '16 в 21:49 2016-03-20 21:49 · Answer 1 · 2016-03-20 21:49

Измените эту строку:

model = forest.fit(train_fold, train_y)

чтобы:

model = forest.fit(train_fold, train_y.values.ravel())

391

Источник

user2498151 20 мар '16 в 21:49

user8673534 11 мар '18 в 06:41 2018-03-11 06:41 · Answer 2 · 2018-03-11 06:41

Я также столкнулся с этой ситуацией, когда я пытался обучить классификатор KNN. но похоже, что предупреждение исчезло после того, как я изменился:
knn.fit(X_train,y_train)
в
knn.fit(X_train, np.ravel(y_train,order='C'))

Впереди этой линии я использовал import numpy as np,

27

Источник

user8673534 11 мар '18 в 06:41

user8443985 10 дек '18 в 22:37 2018-12-10 22:37 · Answer 3 · 2018-12-10 22:37

У меня такая же проблема. Проблема заключалась в том, что метки были в формате столбца, хотя он ожидал этого подряд. использование np.ravel()

knn.score(training_set, np.ravel(training_labels))

Надеюсь, это решит это.

22

Источник

user8443985 10 дек '18 в 22:37

user1017917 19 окт '16 в 19:41 2016-10-19 19:41 · Answer 4 · 2016-10-19 19:41

Используйте код ниже:

model = forest.fit(train_fold, train_y.ravel())

если вы по-прежнему получаете пощечину по ошибке, как показано ниже?

Unknown label type: %r" % y

используйте этот код:

y = train_y.ravel()
train_y = np.array(y).astype(int)
model = forest.fit(train_fold, train_y)

14

Источник

user1017917 19 окт '16 в 19:41

user7081597 06 июн '20 в 09:36 2020-06-06 09:36 · Answer 5 · 2020-06-06 09:36

Y = y.values [:,0]

Y - formated_train_y

y - train_y

5

Источник

user7081597 06 июн '20 в 09:36

user3156200 09 авг '18 в 21:39 2018-08-09 21:39 · Answer 6 · 2018-08-09 21:39

Еще один способ сделать это - использовать ravel

model = forest.fit(train_fold, train_y.values.reshape(-1,))

3

Источник

user3156200 09 авг '18 в 21:39

user2880366 12 мар '20 в 13:07 2020-03-12 13:07 · Answer 7 · 2020-03-12 13:07

С neuraxle вы можете легко решить эту проблему:

p = Pipeline([
   # expected outputs shape: (n, 1)
   OutputTransformerWrapper(NumpyRavel()), 
   # expected outputs shape: (n, )
   RandomForestRegressor(**RF_tuned_parameters)
])

p, outputs = p.fit_transform(data_inputs, expected_outputs)

Neuraxle - это подобная sklearn платформа для настройки гиперпараметров и AutoML в проектах глубокого обучения!

user13218608 04 апр '20 в 10:26 2020-04-04 10:26 · Answer 8 · 2020-04-04 10:26

format_train_y=[]
for n in train_y:
    format_train_y.append(n[0])

1

Источник

user13218608 04 апр '20 в 10:26

user6801386 05 май '22 в 10:52 2022-05-05 10:52 · Answer 9 · 2022-05-05 10:52

TL;DR
использовать

      y = np.squeeze(y)

вместо

      y = y.ravel()

Как у Питона ravel()может быть допустимым способом достижения желаемых результатов в этом конкретном случае, я бы, однако, рекомендовал использовать .
Проблема здесь в том, что если форма вашего y(массив numpy) например, тогда y.ravel()объединит две переменные на второй оси вдоль первой оси, что приведет к форме, подобной (200,). Это может быть не то, что вам нужно, когда вы имеете дело с независимыми переменными, которые должны рассматриваться сами по себе.
С другой стороны, numpy.squeeze()просто обрежет любые избыточные размеры (т.е. те, которые имеют размер 1). Итак, если форма вашего массива numpy (100, 1), это приведет к массиву формы (100,), тогда как результат для массива numpy формы (100, 2)не изменится, так как ни одно из измерений не имеет размера 1.