问题:数据标准化,应该在训练集和测试集划分前还是后?
答:数据标准化,应该在训练集和测试集划分后,分别对训练集和测试集进行数据标准化处理。不应该是数据标准化后,再进行划分。虽然从模型测试的结果看,可能出现的差距不大。
解释:当你手头已经有一份训练和测试数据。在真正的部署过程中,测试数据实际上就是那些源源不断刚刚出现的数据,你不知道它什么分布,也不知道它出现什么样的数值。所以你要用训练数据得到的均值和标准偏差,去转换它。这更加贴近部署的实际。测试集的归一化的均值和标准偏差应该来源于训练集
代码:
from sklearn import preprocessing
Standard = preprocessing.StandardScaler()
x_train = Standard.fit_transform(x_train)
x_test = Standard.transform(x_test)
注意事项:
1.必须现在train上使用fit_transform,再在test数据集上使用transform
2. x_train = preprocessing.StandardScaler().fit_transform(x_train)
x_test = preprocessing.StandardScaler().transform(x_test)
会报错:
This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.
解决办法:需要Standard = preprocessing.StandardScaler(),定义一个对象后,再进行标准化处理。
文章出处登录后可见!
已经登录?立即刷新