Результаты для PLS изменены с версией sci-kit
Я подключил свои данные к модели PLS, используя sci-kit / python. Я заметил, что мои результаты с Python 3.7/ Sci-kit 0.20.1 составляют примерно половину результатов с Python 2.7 / Sci-kit 0.17. По сравнению с другими кодами, следует ожидать результатов Python2.7 / Sci-kit 0.17. Может ли кто-нибудь помочь мне понять, что я делаю неправильно?
Код, который я использовал, был точно таким же, размещенный ниже:
import pandas as pd
import numpy as np
import sklearn
from sklearn.cross_decomposition import PLSRegression
df = pd.read_csv('PSLR.csv', delimiter=';')
y = df['R']
X = df[['A','B','C','D','E','F','G','H']]
pls2 = PLSRegression(n_components=3)
pls2.fit(X, y)
print(pls2.coef_)
y_intercept = pls2.y_mean_ - np.dot(pls2.x_mean_ , pls2.coef_)
print (y_intercept)
Данные:
R A B C D E F G H
0 149 1 0 0 0 0 0 1 0
1 98 0 1 0 0 0 0 1 0
2 72 0 0 1 0 0 0 1 0
3 74 0 0 0 1 0 0 1 0
4 124 1 0 0 0 0 0 0 1
5 71 0 1 0 0 0 0 0 1
6 53 0 0 1 0 0 0 0 1
7 64 0 0 0 1 0 0 0 1
8 186 1 0 0 0 1 1 1 0
9 127 0 1 0 0 1 1 1 0
10 121 0 0 1 0 1 1 1 0
11 104 0 0 0 1 1 1 1 0
12 98 1 0 0 0 0 1 1 1
13 64 0 1 0 0 0 1 1 1
14 38 0 0 1 0 0 1 1 1
15 17 0 0 0 1 0 1 1 1
и результат с Python 3.7/ sci-kit 0.20:
[[ 21.31738122]
[ -0.55514014]
[ -8.9932702 ]
[-11.76897088]
[ 20.21781964]
[ -5.65972552]
[ -5.76695658]
[-18.17454004]]
[102.43789531]
Но с Python 2.7 / Sci-kit 0.17:
[[ 47.66711352]
[ -1.24133108]
[-20.10956351]
[-26.31621892]
[ 45.20841908]
[-10.96001135]
[-12.89530694]
[-35.19484545]]
[112.69680383]
0 ответов
Я нашел решение:
Значение по умолчанию для опции "масштаб" в PLS изменилось: scale=False
дает предварительные факторы, которые я хотел.