高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

高斯分布Gaussian distribution/正态分布Normal distribution

1.广泛的存在

2020年11月24日,探月工程嫦娥五号探测器发射成功。其运转轨道至关重要,根据开普勒三大定律可以计算出一条曲线,但曲线只是一个理想轨道,现实中的轨道是有误差的,如何解决呢?这个问题困扰了科学界多年,直到高斯出版了《天体运行论》才有具体解决方案。书中介绍了一个方法:最小二乘法,前提是测量误差要符合正态分布。

“高富帅”,一个国家的成年男性的身高符合高斯分布;“双11”,产品的销售量也是符合高斯分布;“CET-4/6”,学生的考试成绩也符合高斯分布;“疫情隔离14天”,14天就是由高斯分布计算出来的……如此多截然不同事件的背后都有高斯分布的影子。

上海随机抽取了1000名男子,记录每个人的身高,将数据划分为50个区间,绘制频数直方图,发现身高174cm的人数最多,左右两端特别矮/高的人很少。将数据扩大10倍/100倍/10000倍,将区间绘制更细。可绘制出一条平滑曲线 —— 高斯分布/正态分布。

2.高斯分布

正态分布/高斯分布曲线像山峰,有高低陡缓,(中间高,两边低,两边对称)。由两个参数决定:均值μ(代表数据的平均水平)、标准差σ(代表数据的离散程度,标准差越大,一些数值离平均值差距较大,越离散,山峰越缓慢;标准差越小,数值较接近平均值,越集聚,山峰越陡。)

高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

例:德芙巧克力VS苹果,德芙包装上显示43g,但与实际存在细微误差,其重量满足均值为43g的高斯分布,标准差非常小。将每个苹果称重,其重量也满足高斯分布,假设平均重量为250g,那么苹果的实际重量围绕均值250g左右对称分布,较于德福,其标准差非常大

高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

3.3σ-准则

 高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

 (μ-σ,μ+σ)区间,事件落入其中的概率为68.2%;(μ-2σ,μ+2σ),事件落入的概率为95.4%;(μ-3σ,μ+3σ),事件落入的概率为99.73%;有人觉得 3σ-准则不够严苛,就有了六西格玛管理质量标准,即把区间扩大到(μ-6σ,μ+6σ),落入的概率为99.9998%,落入区间之外的概率仅为十亿分之二。

4.高尔顿钉板实验 — “九章”量子计算机问世

 高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

 “九章”中国量子计算新突破,求解数学算法高斯玻色取样的速度只需200秒,而目前的超级计算机要用6亿年。

玻色采样装置不只高尔顿钉板实验的左右两种选择了,而是会相互作用,且一次不止投放一个光子,可能是大批量的光子一起投入,这会导致高耗时的问题。

线性回归 — 最小二乘法

绘制商场中咖啡店的日均人流量(自变量x)与日均收入(被预测的变量,应变量y)的数据的散点图。

线性回归:用一条直线来拟合自变量和因变量之间的关系(线性方程y=kx+b)

如何得到这条直线?—— 最小二乘法。线性回归得到估计值,估计值与实际值越近越好,代表估计的值越准确。

高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

逻辑回归logistics regression = 线性回归+sigmoid函数

数据挖掘中的一种算法,有啥用?用来解决二分类问题。不要被逻辑回归的“回归”二字所欺骗!!!

分类问题:判断数据所属类别的问题。二分类问题:分类问题的目标类只有两种类别

高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

 回归和分类的区别?回归模型的输出时连续的,分类模型的输出是离散的。

高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

 高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression把线性回归的函数值作为sigmoid函数的输入

 高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

 如何求解

损失函数越小,回归模型越好! 

高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression

 求解不用手算,代码可以搞定!可用spark框架

 

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年6月13日 下午12:23
下一篇 2022年6月13日

相关推荐