深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

分类目录:《深入理解深度学习》总目录

考虑经过参数范数正则化的代价函数:
深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

回顾《拉格朗日乘子法(二):不等式约束与KKT条件》我们可以构造一个广义Lagrange函数来最小化带约束的函数,即在原始目标函数上添加一系列惩罚项。每个惩罚是一个被称为Karush–Kuhn–Tucker乘子的系数以及一个表示约束是否满足的函数之间的乘积。如果我们想约束深入理解深度学习——正则化(Regularization):作为约束的范数惩罚小于某个常数深入理解深度学习——正则化(Regularization):作为约束的范数惩罚,我们可以构建广义 Lagrange 函
数:
深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

这个约束问题的解由下式给出:
深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

解决这个问题我们需要对深入理解深度学习——正则化(Regularization):作为约束的范数惩罚深入理解深度学习——正则化(Regularization):作为约束的范数惩罚都做出调整。有许多不同的优化方法,有些可能会使用梯度下降而其他可能会使用梯度为0的解析解,但在所有过程中深入理解深度学习——正则化(Regularization):作为约束的范数惩罚深入理解深度学习——正则化(Regularization):作为约束的范数惩罚时必须增加,在深入理解深度学习——正则化(Regularization):作为约束的范数惩罚时必须减小。所有正值的深入理解深度学习——正则化(Regularization):作为约束的范数惩罚都鼓励深入理解深度学习——正则化(Regularization):作为约束的范数惩罚收缩。最优值深入理解深度学习——正则化(Regularization):作为约束的范数惩罚也将鼓励深入理解深度学习——正则化(Regularization):作为约束的范数惩罚收缩,但不会强到使得深入理解深度学习——正则化(Regularization):作为约束的范数惩罚小于深入理解深度学习——正则化(Regularization):作为约束的范数惩罚。为了洞察约束的影响,我们可以固定深入理解深度学习——正则化(Regularization):作为约束的范数惩罚,把这个问题看成只跟深入理解深度学习——正则化(Regularization):作为约束的范数惩罚有关的函数:
深入理解深度学习——正则化(Regularization):作为约束的范数惩罚

这和最小化深入理解深度学习——正则化(Regularization):作为约束的范数惩罚的正则化训练问题是完全一样的。因此,我们可以把参数范数惩罚看
作对权重强加的约束。如果深入理解深度学习——正则化(Regularization):作为约束的范数惩罚深入理解深度学习——正则化(Regularization):作为约束的范数惩罚范数,那么权重就是被约束在一个深入理解深度学习——正则化(Regularization):作为约束的范数惩罚球中。如果深入理解深度学习——正则化(Regularization):作为约束的范数惩罚深入理解深度学习——正则化(Regularization):作为约束的范数惩罚范数,那么权重就是被约束在一个深入理解深度学习——正则化(Regularization):作为约束的范数惩罚范数限制的区域中。通常我们不知道权重衰减系数深入理解深度学习——正则化(Regularization):作为约束的范数惩罚约束的区域大小,因为深入理解深度学习——正则化(Regularization):作为约束的范数惩罚 的值不直接告诉我们深入理解深度学习——正则化(Regularization):作为约束的范数惩罚的值。原则上我们可以解得深入理解深度学习——正则化(Regularization):作为约束的范数惩罚,但深入理解深度学习——正则化(Regularization):作为约束的范数惩罚深入理解深度学习——正则化(Regularization):作为约束的范数惩罚之间的关系取决于深入理解深度学习——正则化(Regularization):作为约束的范数惩罚的形式。虽然我们不知道约束区域的确切大小,但我们可以通过增加或者减小深入理解深度学习——正则化(Regularization):作为约束的范数惩罚来大致扩大或收缩约束区域。较大的 α,将得到一个较小的约束区域。较小的深入理解深度学习——正则化(Regularization):作为约束的范数惩罚,将得到一个较大的约束区域。有时候,我们希望使用显式的限制,而不是惩罚。我们可以修改随机梯度下降算法,使其先计深入理解深度学习——正则化(Regularization):作为约束的范数惩罚的下降步,然后将深入理解深度学习——正则化(Regularization):作为约束的范数惩罚投影到满足深入理解深度学习——正则化(Regularization):作为约束的范数惩罚的最近点。如果我们知道什么样的深入理解深度学习——正则化(Regularization):作为约束的范数惩罚是合适的,而不想花时间寻找对应于此深入理解深度学习——正则化(Regularization):作为约束的范数惩罚处的深入理解深度学习——正则化(Regularization):作为约束的范数惩罚值,这会非常有用。另一个使用显式约束和重投影而不是使用惩罚强加约束的原因是惩罚可能会导致目标函数非凸而使算法陷入局部极小 (对应于小的深入理解深度学习——正则化(Regularization):作为约束的范数惩罚)。当训练神经网络时,这通常表现为训练带有几个 ‘‘死亡单元’’ 的神经网络。这些单元不会对网络学到的函数有太大影响,因为进入或离开它们的权重都非常小。当使用权重范数的惩罚训练时,即使可以通过增加权重以显著减少深入理解深度学习——正则化(Regularization):作为约束的范数惩罚,这些配置也可能是局部最优的。因为重投影实现的显式约束不鼓励权重接近原点,所以在这些情况下效果更好。通过重投影实现的显式约束只在权重变大并试图离开限制区域时产生作用。最后,因为重投影的显式约束还对优化过程增加了一定的稳定性,所以这是另一个好处。当使用较高的学习率时,很可能进入正反馈,即大的权重诱导大梯度,然后使得权重获得较大更新。如果这些更新持续增加权重的大小,深入理解深度学习——正则化(Regularization):作为约束的范数惩罚就会迅速增大,直到离原点很远而发生溢出。重投影的显式约束可以防止这种反馈环引起权重无限制地持续增加。Hinton建议结合使用约束和高学习速率,这样能更快地探索参数空间,并保持一定的稳定性。Hinton尤其推荐由Srebro and Shraibman (2005) 引入的策略:约束神经网络层的权重矩阵每列的范数,而不是限制整个权重矩阵的Frobenius范数。分别限制每一列的范数可以防止某一隐藏单元有非常大的权重。如果我们将此约束转换成Lagrange函数中的一个惩罚,这将与深入理解深度学习——正则化(Regularization):作为约束的范数惩罚权重衰减类似但每个隐藏单元的权重都具有单独的 KKT 乘子。每个KKT乘子分别会被动态更新,以使每个隐藏单元服从约束。在实践中,列范数的限制总是通过重投影的显式约束来实现。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年7月6日
下一篇 2023年7月6日

相关推荐