机器学习西瓜书——第二章模型评估与选择

错误率——分类错误的样本数占样本总数的比例，即错误率E=a/m,如果在m个样本中有a个样本分类错误。
精度——1-E=1-a/m,即精度=1-错误率
误差(误差期望)——学习器的实际预测输出与样本的真实输出之间的差异。学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”。

过拟合——学习器已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。
欠拟合——对训练样本的一般性质尚未学好。

数据划分方法

留出法——直接将数据集D划分为两个互斥的集合。训练/测试集的划分要尽可能保持数据分布的一致性，例如在分类任务中至少要保持样本的类别比例相似，即“分类采样”。常见做法是将大约2/3-4/5的样本用于训练，剩余样本用于测试。从“偏差-方差”的角度来理解：测试集小时，评估结果的方差较大；训练集小时，评估结果的偏差较大。
k倍交叉验证法——将数据集D划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到。每次用k – 1 个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。k 最常用的取值是10 ,此时称为10 折交叉验证；其他常用的k值有 5、20 等。为减小因样本划分不同而引入的差别，k 折交叉验证通常要随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如常见的有“10次10折交叉验证”。假定数据集D 中包含m 个样本，若令k=m，则得到了交叉验证法的一个特例：留一法。
自助法——给定包含m个样本的数据集D，每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样中仍有可能被采到，重复执行m次后，我们就得到了包含m个样本的数据集D’。自助法在数据集较小、难以有效划分训练/测试集时很有用；此外，自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处.然而，自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差.因此,在初始数据量足够时，留出法和交叉验证法更常用一些.

调参与最终模型

在模型选择完成后，学习算法和参数配置已选定，此时应该用数据集。重新训练模型.这个模型在训练过程中使用了所有m个样本，这才是我们最终提交给用户的模型.

在研究对比不同算法的泛化性能时，我们用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参.

性能度量

回归任务最常用的性能度量是“均方误差”：

对于二分类任务：

查准率即预测为真的样本中确实为正例的概率
查全率即真实为正例的样本预测为真的概率
两者是一对矛盾的度量。
PR曲线直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时，若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；如果两个学习器的P-R曲线发生了交叉，则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较。曲线下面积的大小可以度量但不太容易估算。

参考博客

PR曲线——平衡点是“查准率=查全率”时的取值，例如上图学习器C的BEP是0.64，而基于BEP的比较，可认为学习器A优于B。
PR曲线——F1度量更为常用，是基于查准率与查全率的调和平均定义的。

PR曲线——度量则是加权调和平均，能让我们表达出对查准率/查全率的不同偏好，它定义为：

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”则可达到该目的。
机器学习（周志华）第2.3.4节中，代价曲线的理解？

比较检验

统计假设检验为我们进行学习器性能比较提供了重要依据。本节默认以错误率为性能度量。
此部分没有细看

偏差与方差

偏差-方差分解是解释学习算法泛化性能的一种重要工具。

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。

方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

噪声则表达了当前任务上任何学习算法所能达到的期望泛化误差的下届，即刻画了学习问题本身的难度。

偏差-方差窘境，一般来说偏差与方差是有冲突的。

文章出处登录后可见！

已经登录？立即刷新

机器学习西瓜书——第二章 模型评估与选择