统计学习方法——支持向量机


之前讲到了感知机模型,并学习了找到超平面的方法,在之前的学习中,我们发现方法不一样,数据不一样,顺序不一样都可能导致找到的超平面是不一样的,那么再找到的超平面中怎么找出那个最优的,就是今天要学习的支持向量机里的内容。

支持向量机SVM (support vector machines)

二分类模型。它的基本型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。

间隔最大化:

一个超平面中,使得与它最近的样本点的距离都要大于任何一个超平面中与样本点最远的距离。

所有的所有的数据集都一定线性可分吗?


所以说,我们一当可以通过增加维度的方式把数据集区分开来,反过来把高维中的超平面映射到低维中,就可能出现变成曲线的超平面。

所以说,SVM是可以划分非线性的,但是它的本质还是线性超平面,只不过是相对于高维的来讲。

那么升维一定可以使得数据集线性分开吗?会不会升到无穷维也不能划分???

不会的,只要是不是一模一样的数据,就一定可以存在一定的维度把它区分开来。

那么会不会存在n维可分,n+1维不可分了?

不会,随着维度的上升,即也就是数据特征不断增减,当存在n个特征就已经线性可分的时候,后面加的条件一定是可有可无的,所以一定会可分。

SVM的特点:

1、最优超平面是通过最大化思想构造出来的。
2、SVM可划分线性不可分的数据集。
3、升维也可分
4、只要数据有差异,就一定可分,只不过是维度不一样就可以了。(非线性通过核函数找出那个非线性的超平面,直观来讲就是升维操作)

函数间隔和几何间隔


怎么使用最大间隔分离超平面


软间隔最大化


假如训练集中有一特异点 ,将这些特异点除去后,剩下大部分的样本点组成的集合是线性分的。线性不可分意味着某些样本点 (Xi Yi) 不能满足函数间隔大于等于 的约束条为了解决这个问题,可以对每个样本点 (Xi Yi) 引进一个松弛变量 ζi大于等于0,函数间隔加上松弛变量大于等于1 。这样,约束条件变为

此时与之对应的目标函数就变为

其中 C(c>0) 称为惩罚参数,一般由应用问题决定,C值大时对误分类的惩罚增大,C值小时对误分类的惩罚减小。最小化目标函数包含两层含义:使 1/2||ω1||尽小,即间隔尽量大,同时使误分类点的个数尽量小,那么C是调和二者的系数。然后就可以把这种线性不可分的问题转换成线性可分的问题,比较与前面的方式,这种方式就被称为是硬间隔最大化。然后再把它通过与上面相同的拉格朗日乘数法进行计算就得到了最终的化简结果,与前面的区别就是对αi的范围做出个更进一步的要求,这就是软间隔最大化的最终结果。

核函数

我们观察上面的式子,很明显计算xixj十一个很复杂的工序,尤其是处于越高维的维度中,这样的计算的复杂度是很明显的增加的,那么是否有一种方式可以解决这样复杂的计算呢?
所以我们希望存在一个函数 K(xi,xj)=xi
xj,还得要保证函数k计算起来足够简单,最好可以实现通过一个公式就可以搞定。所以我们引入了核函数的概念,把形如k(xi,xj)这样的函数就称为核函数。

高斯核函数


在计算xi*xj的时候直接就可以通过这个公式代替。

现在上面式子中就剩下了α还没求解了,如何去求解,所以方法就是SMO(序列最小最优化算法)算法

SMO算法

我们最后求解出来的α一定是满足kkt条件的,如果不满足那么一定不是最优解,所以我们每一次都需要进行不断的调整α的值,知道所有的α都满足kkt条件,这时候得到的一定就是最优解,那么这个过程就是SMO完成的。

kkt条件以及kkt条件的理解



SMO算法的理解以及思路:

如果所有变量的解都满足此最优问题的 KKT 条件,那么这个最优化问题的解得到了。因为 KKT 条件是该最优化问题的充分必要条件。否则,选择两个变量,定其他变量,针对这两个变量构建二次规划问题。这个二次规划问题关于这两个变量的解应该使得这个方程更加接近原始的二次规划问题,所以就把原问题不断分解为子问题进行确认α的过程,从而达到求解的过程,需要注意的是此时必须同时更新两个变量,一次只更新一个变量时无法满足的,具体如下;

通过发现,这个参数它是可以通过其它参数给求解出来,因此不能达到参数优化的目的,所以要通过两个变量。

两个变量二次规划求解

假如我们只保留α1,α2两个变量,其余均当作是常量,于是就有

就得到这个式子


同时,还存在以下的情况:

所以通过第一个条件的约束,保证α1,α2在矩形平面内,然后后面的第二个等式约束保证了α1,α2在直线上,这样就使得两个变量的问题变为一个变量。
在具体一点讲约束条件,如下;

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2022年5月25日
下一篇 2022年5月26日

相关推荐