ML1.1 机器学习误差分析

1.误差、损失函数

1.1 误差

模型的输出结果与其对应的实际值之间往往存在一些差异。这种差异称为模型的输出误差，或简称为误差。

1.2 损失函数

为了便于误差分析，通常需要构造一定的函数来衡量模型对单个样本的输出误差。这样的函数称为损失函数。具体来说，对于给定的机器学习模型，假设输入样本对应的模型输出为 %5Chat%7By%7D%20%3D%20f%28X%29 ，对应的实际真实值为，则和可以作为自变量的函数 L%28y%2C%20f%28X%29%29 作为损失函数来衡量模型在输入样本下的输出误差。

以下两个损失函数常用于衡量回归模型输出误差：

(1).平方损失函数

L%28y%2C%20f%28X%29%29%20%3D%20%5By%20-%20f%28X%29%5D%5E2

(2).绝对值损失函数

L%28y%2C%20f%28x%29%29%20%3D%20%7Cy%20-%20f%28x%29%7C

2.整体误差、泛化误差、训练误差

2.1 整体误差

在机器学习中，单个样本的损失函数仅衡量模型在特定样本下的输出误差，并不能很好地反映模型对某个样本集上所有样本的整体计算精度。因此，需要进一步定义该集合针对特定样本的综合误差，通常称为样本集上的总体误差。

对于任意给定的元素样本集 S%20%3D%20%7B%28X_1%2C%20y%20_1%29%2C%20%28X_2%2C%20y_2%29%2C%20%5Cdots%2C%20%28X_n%2C%20y_n%29%7D ，模型在上的总体误差 R_S%28f%29 定义为：
$R_s%28f%29%20%3D%20E%5BL%28y%2C%20f%28X%29%29%5D%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum%5E%7Bn%7D_%7Bi%20%3D%201%7DL%28y_i%2C%20f%28X_i%29%29$
即定义为中所有单个样本对应的损失函数的平均值。

2.2 泛化误差

对于给定的机器学习任务，假设与该任务相关的所有样本的集合为，则机器学习模型在样本集上的总体误差称为模型对该学习任务的泛化误差。具体而言，令样本集中所有样本的概率分布为 P%28D%29 ，模型对输入样本的输出为 %5Chat%7By%7D%20%3D%20f%28X%29 ，对应的真值为，则模型的泛化误差可定义为：
R_%7Bexp%7D%28f%29%20%3D%20E_%7BP%28D%29%7D%5BL%28y%2C%20f%28X%29%5D
泛化误差表示机器学习模型在整个样本集上的平均误差。它是描述机器学习模型普遍性的重要指标。作为模型求解和模型评估的基本依据，在机器学习过程中发挥着重要作用。重要角色。但是，准确计算模型的泛化误差需要了解整个样本集所有样本的真实值和概率分布，这通常是不可行的。因此，一般无法计算出泛化误差的准确值，需要使用一些易于计算的指标作为泛化误差的近似替代值。

2.3 训练误差

机器学习中模型训练的目标是尽可能获得具有更好的泛化性或泛化性的模型

※ 评价机器学习模型好坏：泛化能力强弱

理论上，模型的泛化误差需要最小化。因为通常无法直接计算，所以更难直接分析泛化误差。由于训练样本通常是从整个样本集中抽取的，训练样本集通常具有与比较相似的样本概率分布，所以一般使用训练误差而不是近似泛化误差来训练模型。

所谓训练误差是指模型在训练样本集上的整体误差，也成为经验风险。具体来说，对于任意给定的元素训练样本集 G%20%3D%20%7B%28X_1%2C%20y_1%29%2C%20%28X_2%2C%20y_2%29%2C%20%5Cdots%2C%20%28X_n%2C%20y_n%29%7D ，假设模型输入样本的预测输出为 %5Chat%7By%7D%20%3D%20f%28X%29 ，则模型相对于训练样本集 $R_%7Bemp%7D%28f%29%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum%5E%7Bn%7D_%7Bk%20%3D%201%7DL%28y_k%2C%20f%28X_k%29%29$ 的训练误差定义为 $R_%7Bemp%7D%28f%29%20%3D%20%5Cfrac%7B1%7D%7Bn%7D%20%5Csum%5E%7Bn%7D_%7Bk%20%3D%201%7DL%28y_k%2C%20f%28X_k%29%29$ 。其中， X_k 代表训练集中第个样本；表示模型的输出 %5Chat%7By%7D_k 到输入样本 X_k ； y_k 是机器学习任务中输入 X_k 对应的真实值。

因此，机器学习中的模型训练或优化通常以最小化训练误差的方式进行。这种方法称为经验风险最小化，得到的优化模型为：
%5Chat%7Bf%7D%20%3D%20%5Carg_%7Bf%20%5Cin%20F%7D%20%5Cmin%20R_%7Bemp%7D%28f%29
其中，为假设空间。

对于经过训练的模型，通常使用代理误差的测试误差近似来测试模型。所谓测试误差是指模型在测试样本集上的总体误差。具体来说，对于任何给定的测试样本集 T%20%3D%20%7B%28X%5Et_1%2Cy%5Et_1%29%2C%20%28X%5Et_2%2Cy%5Et_2%29%2C%5Cdots%20%2C%28X%5Et_v%2Cy%5Et_v%29%7D ，模型在上的测试误差定义为：
$R_%7Btest%7D%20%3D%20%5Cfrac%7B1%7D%7Bv%7D%5Csum%5E%7Bv%7D_%7Bk%20%3D%201%7DL%28y_k%5Et%2C%20f%28X%5Et_k%29%29$
其中， X_k%5Et 代表测试集的第三个样本， f%28X_k%5E%7Bt%7D%29 代表模型输入 X_%7Bk%7D%5E%7Bt%7D 的输出 y%5Et_k ； y%5Et_k 是机器学习任务中输入 X_k%5Et 对应的实际实数值。

对于训练样本集中的每个样本，每个样本都会有一些适用于整个训练样本集的共同特征和一些只适用于训练样本集的个别特征。在机器学习中，模型训练最理想的效果是充分提取训练样本的共同特征，尽量避免提取它们的个体特征，使训练出来的模型具有尽可能多的普适性，即具有最好的泛化性能尽可能。

模型的训练通常基于最小化训练误差。此时，对于固定数量的训练样本，随着训练的不断进行，训练误差会不断减小，甚至接近于零。如果模型训练误差过小，训练出来的模型将基本完全适应训练样本的特点。此时训练模型不仅拟合了训练样本的共同特征，还拟合了训练样本的个别特征，降低了训练模型的泛化性能，使得泛化误差不断增大。这种同时拟合训练样本的共同特征和个体特征的现象在机器学习领域通常被称为样本过拟合。避免过拟合的一个有效措施是尽可能扩大训练样本的数量，使训练样本集上样本的概率分布与整个样本集的概率分布差异最小化。

在机器学习模型训练中，随着训练过程的进行，训练误差会不断减小，但泛化误差会先减小，然后由于过拟合而增大。这种由于未能充分拟合训练样本的共同特征而导致模型泛化能力较弱，导致模型泛化误差较大的现象，称为模型训练欠拟合现象。随着训练过程的继续，训练误差和泛化误差不断减小，欠拟合现象通常会逐渐消失。

对于任意给定的初始模型，假设 D_1%2C%20D_2%2C%20%5Cdots%2C%20D_s 是不同的训练样本集，每一个都是一个训练样本集，其中每个训练样本都是从整个样本集中抽取的，初始模型由训练样本集 D_i 进行训练.得到的优化模型记为 f_i%2C%20i%20%5Cin%20%281%2C%202%2C%20%5Cdots%2C%20s%29%EF%BC%8C%20%5Chat%7By%7D%20%3D%20f_i%28X%29 ，表示第模型对输入样本的期望输出为：
$E%5BF%28X%29%5D%20%3D%20%5Cfrac%7B1%7D%7Bs%7D%20%5Csum%5E%7Bs%7D_%7Bi%20%3D%201%7D%20f_i%28X%29$
其中， F%28X%29%20%3D%20%28f_1%28x%29%2C%20f_2%28x%29%2C%5Cdots%20%2Cf_s%28x%29%29%5ET 可以看作是关于的离散随机变量。

此时模型 f%28X%29 对于测试样本集变化的稳定性可以通过相应的方差指标来衡量。模型在训练样本集 D_1%2C%20D_2%2C%20%5Cdots%2C%20D_s 下得到的优化模型 f_x%28X%29%2C%20f_2%28X%29%2C%20%5Cdots%2C%20f_s%28X%29 的输出方差为：
$Var%5BF%28X%29%5D%20%3D%20E%5C%7B%5BF%28X%29%20-%20E%5BF%28X%29%5D%5D%5E2%5C%7D%20%3D%20%5Cfrac%7B1%7D%7Bs%7D%20%5Csum%5E%7Bs%7D_%7Bi%20%3D%201%7D%5Bf_i%28X%29%20-%20E%5BF%28X%29%5D%5D%5E2$
对于任何给定的初始模型，如果模型的变化自由度很大，例如模型参数数量较多或参数取值范围较大，则能较好地适应训练样本数据的变化，并能适应训练样本数据的变化。多种不同的训练样本集可以获得更好的拟合效果；反之，如果模型变化的自由度小，模型适应训练数据变化的能力就会变差，比较能有效拟合的训练数据的范围。有限，机器学习模型适应训练数据变化的能力称为模型的学习能力或模型的容量。

显然，模型的容量主要反映了模型对数据的拟合能力。模型的容量越大，对数据的拟合能力越强，对训练样本数据变化的适应能力也越好。可以用不同训练样本集下模型输出的综合偏差来衡量，这种综合偏差称为模型输出的偏差，简称偏差。

对于训练样本集 D_1%2C%20D_2%2C%20%5Cdots%2CD_s 下模型 f%28X%29 的优化模型 F%28X%29%20%3D%20%28f_1%28X%29%2C%20f_2%28X%29%2C%20%5Cdots%2Cf_s%28X%29%29 ，作为离散随机变量与对应的实际真实值之间的偏差为：
Bias%5BF%28X%29%5D%20%3D%20E%28F%28X%29%29%20-%20y
对于平方损失函数的泛化误差 R_%7Bexp%7D%28f%29%20%3D%20E%5BL%28y%2C%20F%28X%29%29%5D%20%3D%20E%5C%7B%5BF%28X%29%20-%20y%5D%5E2%5C%7D ，将其分解为偏差-方差，我们可以得到

由于 E%5C%7BF%28X%29%20-%20E%5BF%28X%29%5D%5C%7D%20%3D%20E%5BF%28X%29%5D%20-%20E%5BF%28X%29%5D%20%3D%200 ，有：

因此，模型的泛化误差等于模型输出的方差与模型输出偏差的平方之和。