一文读不懂系列之“线性回归”

心中带点小风骚 • 2022年5月7日上午11:27 • 技术文章 • 阅读 207

目录

看不懂系列的“线性回归”

1. 模型

训练集，自变量为样本的特征向量，因变量为；
权重向量和偏差是可学习的参数；
线性模型：函数

一文读不懂系列之“线性回归”
增广权重向量和增广特征向量统一为下和，则线性模型简写为

经验风险在训练集上取平方损失函数

2. 参数估计

一文读不懂系列之“线性回归”

2.1 LSM | Least Square Method：平方损失的经验风险最小化

一文读不懂系列之“线性回归”
订购

可以看到在LSM中我们需要是可逆的（），即可以知道的行向量是线性不相关，换句话说特征之间是互相独立的(不存在完美的多重共线性[说人话就是不存在精确的线性关系])；

存在的问题

当不可逆时，比较常见的情况是样本数量小于特征数量，则此时，就会有无穷多解使得;解决方案预处理时采用PCA等方法消除不同特征之间的相关性，再使用LSM进行参数估计；使用LMS(梯度下降迭代)求解参数；
当可逆时，有可能存在多重共线性(数据集上小的扰动会导致发生大的改变)，使得LSM的计算变得不稳定；解决方案：岭回归：，最优参数为

岭回归也可以看作结构风险最小化准则下的LSM，其中
一文读不懂系列之“线性回归”

> 其实多重共线性还有很多其他的解决方法【挖🕳待补充】

2.2 LMS | Least Mean Square

一文读不懂系列之“线性回归”

多个样本时梯度下降两种方式批量梯度下降法 | Batch Gradient Descent 每一步检查整个训练集中的所有样本；容易被局部最小值影响；[此处不会，为凸函数，极小值就是最小值] 随机梯度下降法 | Stochastic Gradient Descent 每次遇到一个样本就对参数进行更新，对整个训练集进行循环遍历；训练集()很大的时候，一般偏向于选择SGD(BGD需要对整个训练集进行扫描，引起性能开销)

2.3 MLE | Maximum Likelihood Estimation

[Maximum Likelihood Estimation] Choose value that maximizes the probability of observed data
一文读不懂系列之“线性回归”

条件概率角度

假设随机变量一文读不懂系列之“线性回归” 由函数和随机噪声()组成，即

由此我们可以得到随机变量

那么参数在训练集上的似然函数为

它的对数似然函数是

则MLE转化为

令一文读不懂系列之“线性回归” ，计算

2.4 MAP | Maximum A Posterior Estimation

[Maximum A Posterior Estimation] Choose value that is most probable given observed data and prior belief
一文读不懂系列之“线性回归”

在MLE的假设基础上，进一步假设我们掌握了一些关于参数一文读不懂系列之“线性回归” 的信息，即参数先验分布为，由贝叶斯公式，我们能得到

如果我们假设这个先验分布是一个各向同性的高斯分布（），那么

我们看到MAP实际上等价于平方损失的结构风险最小化(正则化系数为)
当先验分布退化为均匀分布时(大白话就是你的先验信息获取了和没获取一样)，此时MAP退化为MLE；

没做完

* 整理自

nndl
cs290 notes1
cmu 10-715 lecture1b

文章出处登录后可见！

已经登录？立即刷新

赞 (0)

心中带点小风骚普通用户

0

论文学习——基于混合GA优化LSTM的中小流域流量预测研究

上一篇 2022年5月7日

pytorch基础（六）- 卷积神经网络

下一篇 2022年5月7日