机器学习问题汇总（分类篇）

心中带点小风骚 • 2022年5月9日上午10:49 • 技术文章 • 阅读 278

这篇博文主要介绍了机器学习中经常遇到的一些分类相关的问题。

有监督学习和无监督学习的区别

监督学习的训练数据有标注信息，而无监督学习的训练数据没有标注信息。分类和回归是监督学习的代表，聚类是无监督学习的代表。

如果数据有问题怎么办

第一种情况是数据中存在缺失值。缺失值的处理方法有：删除、统一值填充、统计值填充、正反向值填充、插值法填充、建模预测填充和具体分析方法。
第二种情况是数据中存在异常值，可以删除或修正填充。

相对熵公式

它用于衡量同一随机变量机器学习问题汇总（分类篇）的两个分布和之间的差异，常用于描述样本的真实分布，用于表示预测分布。

机器学习问题汇总（分类篇）

KL散度的值越小表示两个分布越接近。

交叉熵公式

把KL散度的公式变形，得到：

机器学习问题汇总（分类篇）

前半部分是机器学习问题汇总（分类篇）的熵，后半部分是交叉熵

机器学习问题汇总（分类篇）

LR的推导，损失函数

机器学习问题汇总（分类篇）功能：

机器学习问题汇总（分类篇）

其图像如下：

机器学习问题汇总（分类篇）

损失函数测量真实输出和模型输出之间的差异。
机器学习问题汇总（分类篇）

通过取两边的对数，将连续乘法变为连续加法形式，即：
机器学习问题汇总（分类篇）

这里损失函数的值等于事件的总概率。我希望它越大越好。按照习惯最小化损失函数，可以在机器学习问题汇总（分类篇）前面加一个负号。

LR和线性回归的区别与联系

两者都是广义上的线性回归。
线性回归的优化方法是最小二乘法，而LR是似然函数。
线性回归主要是解决回归问题，LR主要是解决分类问题。
线性回归的输出是实数域上的连续值，LR的输出被sigmoid函数映射到(0,1)之间，通过设置阈值转换为分类类别。

逻辑回归如何实现多分类

方法一：
把多分类任务拆解成多个二分类任务，利用逻辑回归分类器进行投票求解。有三种拆分策略，OvO、OvR、MvM逻辑回归实现多分类[0]

OvO：转化为多个二分类
OvR：一对其余，一个类别作为正例，其余所有类别作为反例
MvM：将若干个类作为正例，若干个其他类作为反例

方法二：
传统逻辑回归模型的改造

什么是支持向量机

支持向量机SVM就是一种二类分类模型，基本模型是定义在特征空间上的间隔最大的线性分类器，其学习策略就是间隔最大化。
区间定义：

SVM的硬间隔，软间隔表达式

硬行距表达式：

SVM使用对偶计算的目的是什么，如何推出来的，手写推导；

9中的SVM基本型是一个凸二次规划问题，可以利用现成的优化计算包求解，但引入对偶问题更容易求解。“引入核函数，进而推广到非线性分类问题。”

对9中的每条约束添加拉格朗日乘子机器学习问题汇总（分类篇），该问题的拉格朗日函数可写为：

让机器学习问题汇总（分类篇），现在的目标是最小化

分别求机器学习问题汇总（分类篇）关于和的偏导数：

令偏导都等于0可得：

最后，代入拉格朗日函数得到：
机器学习问题汇总（分类篇）

所以双重问题是：
机器学习问题汇总（分类篇）

SVM的物理意义是什么

构造一个最优超平面，以足够的置信度对训练数据进行分类，并希望以足够的置信度分离离超平面最近的点。

SVM的损失函数

采用hinge损失时，损失函数为：

机器学习问题汇总（分类篇）

指数损失：机器学习问题汇总（分类篇）
对准损失：

SVM核函数的作用、种类

核函数的作用是将样本从原始空间映射到更高维的特征空间，使样本在这个特征空间中线性可分。如果原始空间是有限维的，即属性的数量是有限的，那么一定有一个高维的特征空间使得样本可分离。

SVM中什么时候用线性核什么时候用高斯核?

线性核：主要用于线性可分、特征维度高的情况，参数少，速度快。对于一般数据，分类效果已经很好了。
高斯核：主要用于线性不可分、特征维度小、参数多、分类结果对参数依赖很大的情况。

为什么高斯核可以拟合无限维

高斯核函数：

代入上述第三项得：

即高斯核函数将输入空间映射到无限多维空间。

SVM和全部数据有关还是和局部数据有关

SVM只和分类界限上的支持向量点有关,换而言之只和局部数据有关。

LR和SVM 的区别与联系

两者都是有监督的分类算法。
LR是参数模型，SVM是非参数模型。
SVM不直接依赖数据分布，LR依赖。
LR的损失函数是交叉熵，而SVM是hinge函数。

机器学习中的距离计算方法

欧几里得距离：
机器学习问题汇总（分类篇）
是维度，和分别是和的第属性

Minkowski 距离：（欧几里得距离的推广）
机器学习问题汇总（分类篇）

机器学习问题汇总（分类篇）称为块距离（或曼哈顿距离，范数）
是前面介绍的欧几里得距离（或范数）
当称为切比雪夫距离（或范数）

杰卡德相似系数(Jaccard)：
机器学习问题汇总（分类篇）

余弦相似度(cosine similarity)：
机器学习问题汇总（分类篇）

Pearson相似系数（是对象之间线性联系的度量）：
机器学习问题汇总（分类篇）

相对熵（K-L距离）：
机器学习问题汇总（分类篇）

Hellinger距离：

训练集中的类别不平衡，哪个评价指标最不准确

在数据不均衡时，准确度accuracy这个评价指标最不标准，参考意义不大。

ID3、C4.5和CART三种决策树的区别

ID3算法：信息增益

C4.5算法：信息增益率
特征A对训练数据集D的信息增益比机器学习问题汇总（分类篇）定义为其信息增益与训练数据集D的经验熵之比：

CART算法：基尼指数
在分类问题中，假设有机器学习问题汇总（分类篇）类，样本点属于类的概率为，则概率分布的基尼指数定义为：

对于二类分类问题，若样本点属于第1个类的概率是机器学习问题汇总（分类篇），则概率分布的基尼指数为：

对于给定的样本集机器学习问题汇总（分类篇），其基尼指数为：

其中，是中属于类的样本子集，是类数。

如果将样本集机器学习问题汇总（分类篇）根据特征是否取某个可能值分为和两部分，即：
、

那么在特征机器学习问题汇总（分类篇）的条件下，集合的基尼指数为：

基尼指数机器学习问题汇总（分类篇）代表集合的不确定性，基尼指数代表集合除以后的不确定性。基尼指数越大，样本集的不确定性越大。

朴素贝叶斯基础和预测过程

用朴素贝叶斯法分类时，对于给定的输入机器学习问题汇总（分类篇），通过学习模型计算后验概率分布，将后验概率最大的类作为的类输出，后验概率计算按照贝叶斯定理：

根据条件独立假设，我们得到：
机器学习问题汇总（分类篇）
上式中的分母对所有都是一样的，所以比较时只能比较分母。

朴素贝叶斯（naive Bayes）法的要求

朴素贝叶斯假设条件概率分布的条件独立。
机器学习问题汇总（分类篇）

有多少分类算法？应用场景

没有最好的分类器，只有最合适的分类器。
感知机、决策树、逻辑回归、贝叶斯分类器、支持向量机、K近邻、随机森林

决策树应用场景：由于能够生成清晰的树形图，当你想更好地理解数据时可以使用决策树

逻辑回归应用场景：需要具有概率意义的输出，LR的参数代表每个特征对输出的二影响，可解释性强。LR的计算量小，存储占用低，可以在大数据场景中使用。LR虽然效果一般，但模型清晰。

贝叶斯分类器应用场景：当一个比较容易解释，且不同维度之间相关性较小时，可以高效处理高维数据，但结果不保证

支持向量机应用场景：在大量数据上表现良好，可以尝试。

KNN应用场景：需要一个特别容易解释的模型的时候

随机森林应用场景：一种可以解决大规模数据集问题的综合方法，还可以对变量的重要性进行排序。刚拿到数据集不知道用什么方法的时候，也可以试试随机森林。

生成模型和判别模型的基本形式是什么？

典型的生成模型有：朴素贝叶斯和隐马尔可夫模型。
生成模型：
机器学习问题汇总（分类篇）

典型的判别模型有：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。
判别模型表示生成关系，给定输入机器学习问题汇总（分类篇）产生输出。

本文参考资料：
机器学习算法的应用场景[0]

文章出处登录后可见！

已经登录？立即刷新

人工智能分类机器学习

赞 (0)

心中带点小风骚普通用户

0

＜视觉十四讲＞ ch6 非线性优化

上一篇 2022年5月9日

目标检测——手势识别（基于pytorch框架）

下一篇 2022年5月9日