看不懂系列的“线性回归”
1. 模型
- 训练集,自变量为样本的特征向量,因变量为;
- 权重向量和偏差是可学习的参数;
- 线性模型:函数
增广权重向量和增广特征向量统一为下和,则线性模型简写为
- 经验风险在训练集上取平方损失函数
2. 参数估计
2.1 LSM | Least Square Method:平方损失的经验风险最小化
订购
可以看到在LSM中我们需要是可逆的(),即可以知道的行向量是线性不相关,换句话说特征之间是互相独立的(不存在完美的多重共线性[说人话就是不存在精确的线性关系]);
存在的问题
- 当不可逆时,比较常见的情况是样本数量小于特征数量,则此时,就会有无穷多解使得;解决方案 预处理时采用PCA等方法消除不同特征之间的相关性,再使用LSM进行参数估计;使用LMS(梯度下降迭代)求解参数;
- 当可逆时,有可能存在多重共线性(数据集上小的扰动会导致发生大的改变),使得LSM的计算变得不稳定;解决方案:
岭回归:,最优参数为
岭回归也可以看作结构风险最小化准则下的LSM,其中
> 其实多重共线性还有很多其他的解决方法【挖🕳待补充】
2.2 LMS | Least Mean Square
- 多个样本时梯度下降两种方式 批量梯度下降法 | Batch Gradient Descent 每一步检查整个训练集中的所有样本;容易被局部最小值影响;[此处不会,为凸函数,极小值就是最小值] 随机梯度下降法 | Stochastic Gradient Descent 每次遇到一个样本就对参数进行更新,对整个训练集进行循环遍历;训练集()很大的时候,一般偏向于选择SGD(BGD需要对整个训练集进行扫描,引起性能开销)
2.3 MLE | Maximum Likelihood Estimation
[Maximum Likelihood Estimation] Choose value that maximizes the probability of observed data
条件概率角度
假设随机变量由函数和随机噪声()组成,即
由此我们可以得到随机变量
那么参数在训练集上的似然函数为
它的对数似然函数是
则MLE转化为
令,计算
2.4 MAP | Maximum A Posterior Estimation
[Maximum A Posterior Estimation] Choose value that is most probable given observed data and prior belief
在MLE的假设基础上,进一步假设我们掌握了一些关于参数的信息,即参数先验分布为,由贝叶斯公式,我们能得到
如果我们假设这个先验分布是一个各向同性的高斯分布(),那么
- 我们看到MAP实际上等价于平方损失的结构风险最小化(正则化系数为)
- 当先验分布退化为均匀分布时(大白话就是你的先验信息获取了和没获取一样),此时MAP退化为MLE;
没做完
* 整理自
- nndl
- cs290 notes1
- cmu 10-715 lecture1b
文章出处登录后可见!
已经登录?立即刷新