机器学习——回归算法

机器学习–回归算法

一、问题分析

回归问题和分类问题在本质上是一样的,都是针对一个输入做出一个输出预测,其区别在于输出变量的类型。
分类问题也叫离散变量预测,其输出是输入数据所对应的类别,是一种定性输出。
回归问题也叫连续变量预测,其输出是由输入数据推断出来的一个实数值,是一种定量输出。如预测明天是晴天还是雨天,这是一个分类问题,而预测明天的气温度数,则是一个回归问题。
回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常前者是因变量,后者是自变量。

二、模型分析

回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成;模型是Y=a+bX+ε(X是自变量,Y是因变量,ε是随机误差)。通常假定随机误差的均值为0,方差为σ2(σ2﹥0,σ^2与X的值无关),若进一步假定随机误差遵从正态分布,就叫做正态线性模型。
一般的,若有k个自变量和1个因变量,则因变量的值分为两部分:一部分由自变量影响,即表示为它的函数,函数形式已知且含有未知参数;另一部分由其他的未考虑因素和随机性影响,即随机误差。

当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

三、回归分析的主要内容

1.从一组数据出发,确定某些变量之间的定量关系式;即建立数学模型并估计未知参数,通常用最小二乘法;
2.检验这些关系式的可信任程度;
3.在多个自变量影响一个因变量的关系中,判断自变量的影响是否显著,并将影响显著的选入模型中,剔除不显著的变量,通常用逐步回归、向前回归和向后回归等方法;
4.利用所求的关系式对某一过程进行预测或控制。
回归分析的应用非常广泛,统计软件包的使用可以让各种算法更加方便。
回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。下面我们以线性回归为例来进一步说明回归算法。

四、线性回归

回归算法是先建立一个假设的模型,即一个函数,但是函数中含有未知的参数。把一组数据作为函数的输入,函数的输出便是预测值。而线性回归是回归的一种,它假设特征和结果都满足线性,即不大于一次方。如果线性回归分析中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

4.1 编写线性回归算法代码

启动环境后,登录到服务器,编辑代码文件:
1.导入模块


2.实例化数据集

3.划分数据集

4.训练模型

5.模型预测

6.查看回归系数

7.计算误差

8.计算标准误差RMSE

9.绘制图形

10.实验结果:

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年5月23日
下一篇 2022年5月23日

相关推荐