训练集和测试集的标准化中的坑！！！

扎眼的阳光 • 2023年4月5日上午8:34 • Python • 阅读 267

问题：数据标准化，应该在训练集和测试集划分前还是后？

答：数据标准化，应该在训练集和测试集划分后，分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后，再进行划分。虽然从模型测试的结果看，可能出现的差距不大。

解释：当你手头已经有一份训练和测试数据。在真正的部署过程中，测试数据实际上就是那些源源不断刚刚出现的数据，你不知道它什么分布，也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差，去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集

代码：

from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项：

1.必须现在train上使用fit_transform，再在test数据集上使用transform

2. x_train = preprocessing.StandardScaler().fit_transform(x_train)
x_test = preprocessing.StandardScaler().transform(x_test)

会报错：

This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

解决办法：需要Standard = preprocessing.StandardScaler()，定义一个对象后，再进行标准化处理。

文章出处登录后可见！

已经登录？立即刷新

训练集和测试集的标准化中的坑！！！

相关推荐