支持向量机（SVM）通俗版讲解

一、认识支持向量机

支持向量机（support vector machine，简称SVM），是一种解决二分类问题的机器学习模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

要认识支持向量机，我们还需要了解几个概念。

1.1 线性可分/线性不可分

对于一个二维空间，每个样本就相当于平面上的一个点。如果能够找到一条线，可以把两种类别的样本划分至这条线的两侧，我们就称这个样本集线性可分，如下图所示。

反之，若不能找到这样的直线，则称该样本集线性不可分。

1.2 超平面

显然，在上述的二维空间中，我们的目标就是找到这样的一条直线，能够把样本集划分成两部分，我们把这样的线称作线性模型。同理，在三维空间中，我们要找的线性模型就是一个平面。而对于更高的维度，虽然我们处在三维的世界，无法想象三维以上的世界，但我们可以使用数学方法描述更高维度，同样也可以使用数学方法推导出高维的线性模型。我们称超过三维的曲面为超平面，其方程为：

$w^{T}x+b=0$

其中， $w=[w_{1},w_{2},...w_{n}]^{T}$ ，n表示特征数（维度数），b为常数。

所以我们可以这样描述SVM的目的：找到这样一个超平面wx+b=0，使得在超平面上方的点x代入函数y=wT x+b，y全部大于0，在超平面下方的点x代入函数y=wx+b，y全部小于0。

二、算法思想

2.1 线性可分的SVM

SVM要找到一个超平面，这个超平面要分开两种不同的样本，但符合这个条件的超平面不是唯一的。这要求我们使用一个标准，能够确认一个分类效果最好的超平面。

假设两类数据可以被 $H = \left \{ x:w^{T}x+b\geqslant \varepsilon \right \}$ 分离，垂直于该超平面移动，直到碰到某个样本向量，这两个样本向量就是支持向量。得到的两个超平面 $H_{1}$ 和 $H_{2}$ ，称为支撑超平面，它们分别支撑两类数据。而位于 $H_{1}$ 和 $H_{2}$ 正中间的超平面就是分类效果最好的超平面。如下图所示。