深度学习的基本思路

心中带点小风骚 • 2022年5月30日上午11:33 • 技术文章 • 阅读 386

前向传播是计算得分函数（权重乘以输入+偏置项）和损失函数（数据损失+正则化惩罚项）的过程
反向传播是从后向前逐层对损失函数求梯度的
输入层和第一个隐含层运算之后做非线性变换（映射）再进入第二个隐含层

第一个问题：为何正则化惩罚项的系数越大，模型泛化性越好？
当考虑所有输入数据而其中某些少数特殊点使得一些权重较大，而这样会使模型泛化性较差，当增大正则化惩罚项的系数会倒逼权重减小，从而弱化特殊点对应权重带来的影响，所以使模型泛化性变好