机器学习–回归算法

一、问题分析

回归问题和分类问题在本质上是一样的，都是针对一个输入做出一个输出预测，其区别在于输出变量的类型。
分类问题也叫离散变量预测，其输出是输入数据所对应的类别，是一种定性输出。
回归问题也叫连续变量预测，其输出是由输入数据推断出来的一个实数值，是一种定量输出。如预测明天是晴天还是雨天，这是一个分类问题，而预测明天的气温度数，则是一个回归问题。
回归指研究一组随机变量(Y1 ，Y2 ，…，Yi)和另一组(X1，X2，…，Xk)变量之间关系的统计分析方法，又称多重回归分析。通常前者是因变量，后者是自变量。

二、模型分析

回归分析是一种数学模型。当因变量和自变量为线性关系时，它是一种特殊的线性模型。最简单的情形是一元线性回归，由大体上有线性关系的一个自变量和一个因变量组成；模型是Y=a+bX+ε（X是自变量，Y是因变量，ε是随机误差）。通常假定随机误差的均值为0，方差为σ2（σ2﹥0，σ^2与X的值无关），若进一步假定随机误差遵从正态分布，就叫做正态线性模型。
一般的，若有k个自变量和1个因变量，则因变量的值分为两部分：一部分由自变量影响，即表示为它的函数，函数形式已知且含有未知参数；另一部分由其他的未考虑因素和随机性影响，即随机误差。

当函数为参数未知的线性函数时，称为线性回归分析模型；当函数为参数未知的非线性函数时，称为非线性回归分析模型。当自变量个数大于1时称为多元回归，当因变量个数大于1时称为多重回归。

三、回归分析的主要内容

1.从一组数据出发，确定某些变量之间的定量关系式；即建立数学模型并估计未知参数，通常用最小二乘法；
2.检验这些关系式的可信任程度；
3．在多个自变量影响一个因变量的关系中，判断自变量的影响是否显著，并将影响显著的选入模型中，剔除不显著的变量，通常用逐步回归、向前回归和向后回归等方法；
4.利用所求的关系式对某一过程进行预测或控制。
回归分析的应用非常广泛，统计软件包的使用可以让各种算法更加方便。
回归主要的种类有：线性回归，曲线回归，二元logistic回归，多元logistic回归。下面我们以线性回归为例来进一步说明回归算法。

四、线性回归

回归算法是先建立一个假设的模型，即一个函数，但是函数中含有未知的参数。把一组数据作为函数的输入，函数的输出便是预测值。而线性回归是回归的一种，它假设特征和结果都满足线性，即不大于一次方。如果线性回归分析中只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。