训练集和测试集的标准化中的坑!!!

问题:数据标准化,应该在训练集和测试集划分前还是后?

答:数据标准化,应该在训练集和测试集划分,分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后,再进行划分。虽然从模型测试的结果看,可能出现的差距不大。

解释:当你手头已经有一份训练和测试数据。在真正的部署过程中,测试数据实际上就是那些源源不断刚刚出现的数据,你不知道它什么分布,也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差,去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集

代码:

from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项:

1.必须现在train上使用fit_transform,再在test数据集上使用transform

2.    x_train = preprocessing.StandardScaler().fit_transform(x_train)
       x_test = preprocessing.StandardScaler().transform(x_test)

        会报错:

This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

解决办法:需要Standard = preprocessing.StandardScaler(),定义一个对象后,再进行标准化处理。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2023年4月5日
下一篇 2023年4月5日

相关推荐