04 自动调整学习率（Learning Rate）-学习笔记-李宏毅深度学习2021年度

乘风 • 2022年3月1日下午3:54 • 技术文章 • 阅读 837

上一篇：03 梯度（Gradient）很小怎么办（Local Minima与Saddle Point）-学习笔记-李宏毅深度学习2021年度

下一篇：05 Classification-学习笔记-李宏毅深度学习2021年度

本节内容及相关链接

自动调整 Learning Rate 的常见策略

视频链接
PPT链接

课堂笔记

当training陷入瓶颈时，不一定是gradient太小，有可能是由于学习率太大，导致其在山谷之间震荡，无法抵达最小值

对应到gradient的函数图像如下图：

轴为更新次数，为gradient的大小

要根据迭代次数，当前梯度等因素，自动调整 Learning Rate。的更新公式改为: $%5Ctheta_i%5E%7Bt%2B1%7D%5Cleftarrow%20%5Ctheta_i%5Et%20-%20%5Cfrac%7B%5Ceta%7D%7B%5Csigma_i%5Et%7Dg%5Et_i$

对于Learning Rate的调整，都是通过调整来实现

常见的调优策略包括：

Root Mean Square：考虑本次的梯度和过去的所有梯度
RMSProp：重点考虑本次的梯度，稍微考虑过去的所有梯度
Adam：结合了RMSProp和Momentum
Learning Rate Decay：随着更新次数的增多，因为我们就会越接近目标，所以要将Learning Rate调小
Warm Up：一开始Learning Rate小一点，然后随着迭代次数增多而增大，然后到某一个点时，再随着迭代次数增多而减小。
如图所示：

Root Mean Square公式为： $%5Csigma_%7Bi%7D%5E%7Bt%7D%3D%5Csqrt%7B%5Cfrac%7B1%7D%7Bt%2B1%7D%20%5Csum_%7Bi%3D0%7D%5E%7Bt%7D%5Cleft%28g_%7Bi%7D%5E%7Bt%7D%5Cright%29%5E%7B2%7D%7D$