Table of Contents

绪论

为了更早地适应研究生的生活，我决定重新学习周志华老师的机器学习这本书。同时也为了能够养成博客记录的习惯，我开始尝试着写博客记录学习中的问题。

一、什么是机器学习

机器学习是在计算机上，从数据中产生“学习算法”，然后通过该算法产生模型。基于该模型提供相应的判断的过程。

二、基本术语

数据集（data set） 一组数据的记录集合。
示例（instance）or 样本（sample） 数据集中的一个对象或者事件的描述。
属性（attribute）or 特征（feature） 反映事件或对象在某方面的表现或性质。
属性值（attribute value） 属性上的取值。例如：头发的颜色取值黑色；头发的长度取值长发。
属性空间（attribute space) or 样本空间（sample space）or 输入空间 属性张成的空间。例如，将头发的“颜色”，“长度”，“是否分叉”三个属性作为三个坐标，可以张成一个用于描述头发的三维空间，每根头发都可以在该三维空间中找到自己的位置。
特征向量（feature vector） 属性空间中的每个点对应一个坐标向量，所以，一个坐标点所代表的示例称为一个特征向量。
维数（dimensionally） 特征向量的维数，这里指某一示例中的特征总数。
学习（learning）or 训练（training） 从数据中学得模型的过程。
训练数据（training data） 训练过程中使用的数据。
训练样本（training sample） 训练数据中的每一个样本。
训练集（training set） 训练样本组成的集合。
假设（hypothesis） 通过学习到的模型得出一种关于数据的潜在规律，称为假设。
真相 or 真实（ground truth） 由假设的自身，即潜在规律自身，成为真相。
学习器（learner） 等同于模型，可看作学习算法在给定数据和参数空间的实列化。
预测（prediction） 通过预测，可以判断样本是否符合结果信息。
标记（label） 样本结果的信息。例如，色泽=青绿，根蒂=蜷缩是好瓜的。
样例（sample） 拥有标记信息的示例。
标记空间 or 输出空间（lable space） 标记的集合。
分类（classification） 算法预测离散值，例如“好人”，“坏人”。
回归（regression） 算法预测连续值，例如西瓜的成熟度：0.95、0.22。
二分类（binary classification） 只涉及两个类别的分类。
正类（positive class） 二分类中的正类。
反类（negative class） 二分类中的反类。正类的反面。
多分类（multi-class classification） 涉及多个类别的分类。
测试（testing） 学得模型后，使用该模型进行预测的过程。
测试样本（testing sample） 被预测的样本。
聚类（clustering） 一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。
簇（cluster） 训练集中的样本分为若干组，每一组称为一个簇。
监督学习（supervised learning） 训练数据有标记信息。
无监督学习（unsupervised learning） 训练数据无标记信息。
泛化（generalization） 学得的模型适用于新样本的能力。
分布（distribution） 假设样本空间中全体样本服从一个的一个未知的发布。一般而言，训练样本越多，我们得到的关于分布的信息就越多，这样就越有可能通过学习获得具有强泛化能力的模型。
独立同分布（(independent and identically distributed ，简称 i.i.d.） 获得的每个样本都是独立地从这个分布上采样获得的。

三、假设空间

假设空间就是基于数据集形成的所有情况的假设集合，对每种情况根据数据集分析得到概率情况，以便后期对未知情况进行判断。

我所理解的假设空间是：特征属性的所有可能的属性值取值的集合。

我们可以把学习过程看作一个在假设组成的空间中进行搜索的过程。搜索过程中可以不断删除与正例不一致的假设、和（或）与反例一致的假设。最终将会获得与训练集一致（即对所有训练样本能够进行正确判断）的假设，这就是我们学得的结果。

现实问题中我们常面临很大的假设空间，但学习过程是基于有限样本训练集进行的，因此有可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”，我们称之为“版本空间（version space）”

版本空间概念学习中与已知数据集一致的所有假设的子集集合。即，从假设空间删除掉与正例不一致和与反例一致的假设后，剩余的假设所组成的集合。

四、归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为”归纳偏好” (inductive bias) ,
或简称为”偏好”。（感觉比假设空间好理解）

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上”等效”的假设所迷惑，而无法产生确定的学习结果。

事实上，归纳偏好对应了学习算法本身所做出的关于”什么样的模型更好”的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

“没有免费的午餐“定理的证明：不会。

总之，具体问题要具体分析。学习算法自身的归纳偏好与问题是否相配，往往会起到决定性的作用。

总结

本章简单介绍了一些基本术语，假设空间与归纳偏好。对于版本空间与没有免费午餐的证明还不熟悉。在此后还得多加努力。

参考链接

【《机器学习》周志华学习笔记1.3】~机器学习中“假设空间”到底是什么？“归纳学习”又是什么？“布尔概念”呢？

如何理解假设空间与版本空间？

第一章绪论课后习题答案

文章出处登录后可见！

已经登录？立即刷新

机器学习-周志华-学习记录-第一章绪论

绪论

一、什么是机器学习

二、基本术语

三、假设空间

四、归纳偏好

总结

参考链接

相关推荐