站点图标 AI技术聚合

机器学习(周志华)第12章计算学习理论

周志华先生《机器学习》一书学习笔记
记录学习过程
本博客记录Chapter12

1 基础知识

计算学习理论(computational learning theory):关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法体统理论保证,并根据结果指导算法设计。

对于二分类问题,给定样本集。假设所有样本服从一个隐含未知的分布,所有样本均独立同分布(independent and identically distributed)。

为样本到的映射,其泛化误差为

的经验误差为

由于D是的独立同分布采样,因此的经验误差的期望等于其泛化误差。在上下文明确时,我们将分别简记为。 令的上限,即;我们通常用表示预先设定的学得模型所应满足的误差要求,亦称“误差参数”。

我们将研究经验误差和泛化误差之间的逼近程度;若在数据集上的经验误差为0,则称与D一致,否则称其不一致。对于任意两个映射,用不合(disagreement)来度量他们之间的差别:

我们将使用几个常见的不等式:

2 PAC学习

概率近似正确理论(Probably Approximately Correct,PAC):

3 有限假设空间

3.1 可分情形

对于PAC来说,只要训练集的规模能使得学习算法以概率找到目标假设的近似即可。

首先估计泛化误差大于但仍然在训练集上表现完美的假设的概率。假设的泛化误差大于,对于从分布随机抽样得到的任意样本,我们有:

由于包含例子,一致的概率为:

我们事先并不知道学习算法会输出哪个假设,但我们只需要保证泛化误差大于,并且在训练集上完美的多个假设的出现概率之和不大于比

令上式不大于

可用的

由此可知,有限假设空间都是PAC可学习的,所需的样例数目如上式所示,输出假设的泛化误差随样例数目的增多而收敛到 0,收敛速率为

3.2 不可分情形

时,我们的学习算法无法学习到目标概念近似,但是当假设空间给定时,必然存在泛化误差最小的假设,找到这个假设的近似也是一个不错的目标。 .

中泛化误差最小的假设是,以此为目标可将PAC学习推广到的情况,称为**”不可知学习“**(agnostic learning)。其概念如下:

表示从分布中独立且相同的分布采样的样本数,对于所有分布,如果存在学习算法和多项式函数,使得对于任何,学习算法可以从满足下列方程的假设空间 假设

则称假设空间是不可知PAC学习的。

4 VC维

VC维:假设空间的VC维是能被打散的最大示例集的大小:

例如对二分类问题来说,m个样本最多有个可能结果,每种可能结果称为一种“对分”,若假设空间能实现数据集D的所有对分,则称数据集能被该假设空间打散。VC维指能被打散的最大示例集的大小。

应注意到,VC维与数据分布无关!在数据分布未知时,仍能计算出假设空间的VC维。

若假设空间的VC维是,则对任意整数,有:

同时任何VC维有限的假设空间都是(不可知)PAC学习的。

5 Rademacher复杂度

Rademacher 复杂度 (Rademacher complexity) 是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布。

考虑实值函数空间,令。函数空间关于的经验Rademacher复杂度

经验Rademacher复杂度衡量了函数空间与随机噪声在集合中的相关性。通常我们希望了解函数空间上关于分布的相关性,因此,对所
采样的 IID 有一个大小为 的集合

假设空间的Rdemacher复杂度与增长函数满足

6 稳定性

顾名思义,算法的“稳定性”考察的是当输入发生变化时,算法的输出是否会发生显着变化。学习算法的输入是训练集,所以我们首先定义训练集的两个变体:

损失函数捕获预测标记和真实标记之间的差异:

算法的均匀稳定性:

因此,移除示例的稳定性包括替换示例的稳定性。

若学习算法符合经验风险最小化原则(ERM)且稳定的,则假设空间是可学习的。稳定性通过损失函数与假设空间的可学习联系在了一起。

文章出处登录后可见!

已经登录?立即刷新
退出移动版