机器学习 第1章 绪论

第一章介绍

1.1引言

机器学习研究的内容,是关于在计算机上从数据产生“模型”的算法,即”学习算法“,有了学习算法,我们把经验数据提供给它,他就能基于这些数据产生模型;面对新的情况时,模型会给我们提供相应的判断。
机器学习是研究关于“学习算法”的学问。

1.2基本术语

数据集:记录的集合
示例或样本:事件或对象的描述
属性或特征:以某种方式反映事物或物体的外观或性质的事物
属性值:属性上的值
属性空间、样本空间或输入空间:属性跨越的空间
特征向量:由于空间中的每个点都对应一个坐标向量,我们也称一个例子为“特征向量”
维度:样本的属性个数
训练数据:训练期间使用的数据
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
学习器(learner):模型的别称
标签:示例结果的另一个名称
示例:带有标记的示例

分类:预测离散值学习任务
回归:预测连续值的学习任务
监督学习:训练数据具有分类和回归等标签信息
无监督学习:训练数据没有标记信息,例如聚类

泛化:学习模型应用于新样本的能力

1.3 假设空间

将学习过程视为在由所有假设组成的空间中的搜索过程。搜索目标是找到与训练集“匹配”的假设,即与训练集中的“瓜”可以判断为正确的假设。
版本空间:与训练集一致的“一组假设”

1.4 归纳偏好

机器学习在学习过程中对某一类假设的偏好称为“归纳偏好”,或简称为“偏好”。
任何有效的机器学习算法都必须有其归纳偏差,否则它会被假设空间中在训练集上看起来“等价”的假设所迷惑。
归纳偏好对应于学习算法本身关于哪种模型更好的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身相匹配,直接决定了算法在大多数情况下能否取得良好的性能。

“没有免费的午餐定理”:NFL定理,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好,要谈论算法的相对优劣,必须要针对具体的学习问题。

1.5 发展历程

20世纪50年代-20世纪70年代初,人工智能处于“推理期”,人们认为只要能赋予机器逻辑推理能力,机器就能具有智能。成果:用“逻辑理论家“程序证明数学定理。人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工职能的,得要有知识。
20世纪70年代中期开始:人工智能领域进入“知识期”,大量专家系统问世。后来专家系统面临”知识工程瓶颈“。由人来把知识总结出来再教给计算机是困难的。
———————————————————————————————————————
20世纪50年代初有了机器学习的相关研究。如跳棋程序。
20世纪50年代中后期,基于神经网络的”连接主义“,代表工作有感知机
20世纪六七十年代,基于逻辑表示的“符号主义”蓬勃发展
20世纪八十年代,是机器学习成为一个独立的学科领域、各种机器学习技术百花初绽的时期
20世纪90年代中期之前,“从样例中学习”的另一主流技术是基于神经网络的连接主义学习。
20世纪90年代中期,“统计学习”占据主流舞台,代表技术是支持向量机和更一般的核方法。
21世纪初,连接主义学习卷土重来,掀起了以“深度学习”为名的热潮。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年3月15日 下午5:21
下一篇 2022年3月15日 下午5:38

相关推荐