第一章介绍
奥卡姆剃刀定理:如无必要,勿增实体,书中表述为“若有多个假设与观察一致,则选择最简单的那个。”
没有免费的午餐定律:对于所有的目标真实函数f,无论使用什么学习算法,其误差都是相同的。
- 这里的目标真实函数f是指任何能将样本映射到输出空间的函数且服从均匀分布
引言中介绍了一些机器学习术语。一些比较重要的总结如下:
1、分类与回归
- 分类一般预测离散值,比如好瓜和坏瓜
- 回归一般预测的是连续值,例如西瓜的成熟度0.95.
2、独立同分布
- 相同分布:整个样本空间中的样本服从相同的分布。
- Independent:样本空间中的样本相互独立选择,互不影响。
3、”没有免费的午餐“定理证明
这个定理告诉我们,从具体问题去谈“什么样的学习算法更好”是没有意义的。
第二章模型评价与选择
1、过拟合与欠拟合
- 过拟合:模型的学习能力太强,样本的一些特征也被学习为通用规则,泛化能力变差
- 欠拟合:模型学习能力太弱,无法有效学习样本的一般规律
2、评估方法
- 留空法:将样本分成两个互斥的集合,一个用于训练,一个用于验证
- 缺点:如果训练样本太多,模型和用所有样本训练的模型差别不大,测试集会失去作用。如果太小,会与所有样本的训练相差很大。
- 交叉验证方法:
- 自助法:对所有样本进行随机采样,得到m个样本作为训练集,因为每次采样后,会放回,所有训练集中会有重复的,始终有36%的验证集
3、查准率、查全率与F1
只关心正面的例子
- Precision:预测的正样本中为真例的比例(有好瓜和坏瓜,能挑出多少好瓜)
- 召回率:预测为正例的真实例子的比例(所有好瓜中挑出多少比例)
- F1:取倒数即为
文章出处登录后可见!
已经登录?立即刷新