04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习2021年度

上一篇:03 梯度(Gradient)很小怎么办(Local Minima与Saddle Point)-学习笔记-李宏毅深度学习2021年度

下一篇:05 Classification-学习笔记-李宏毅深度学习2021年度

本节内容及相关链接

自动调整 Learning Rate 的常见策略

  • 视频链接
  • PPT链接

课堂笔记

当training陷入瓶颈时,不一定是gradient太小,有可能是由于学习率太大,导致其在山谷之间震荡,无法抵达最小值

04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习2021年度
对应到gradient的函数图像如下图:
04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习2021年度
x轴为更新次数,y为gradient的大小

要根据迭代次数,当前梯度等因素,自动调整 Learning Rate。%5Ctheta的更新公式改为:%5Ctheta_i%5E%7Bt%2B1%7D%5Cleftarrow%20%5Ctheta_i%5Et%20-%20%5Cfrac%7B%5Ceta%7D%7B%5Csigma_i%5Et%7Dg%5Et_i

对于Learning Rate的调整,都是通过调整%5Csigma来实现

常见的调优策略包括:

  • Root Mean Square:考虑本次的梯度和过去的所有梯度
  • RMSProp:重点考虑本次的梯度,稍微考虑过去的所有梯度
  • Adam:结合了RMSProp和Momentum
  • Learning Rate Decay:随着更新次数的增多,因为我们就会越接近目标,所以要将Learning Rate调小
  • Warm Up:一开始Learning Rate小一点,然后随着迭代次数增多而增大,然后到某一个点时,再随着迭代次数增多而减小。
    如图所示:04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习2021年度

Root Mean Square公式为:%5Csigma_%7Bi%7D%5E%7Bt%7D%3D%5Csqrt%7B%5Cfrac%7B1%7D%7Bt%2B1%7D%20%5Csum_%7Bi%3D0%7D%5E%7Bt%7D%5Cleft%28g_%7Bi%7D%5E%7Bt%7D%5Cright%29%5E%7B2%7D%7D

RMSProp公式为:%5Csigma_%7Bi%7D%5E%7Bt%7D%3D%5Csqrt%7B%5Calpha%5Cleft%28%5Csigma_%7Bi%7D%5E%7Bt-1%7D%5Cright%29%5E%7B2%7D%2B%281-%5Calpha%29%5Cleft%28g_%7Bi%7D%5E%7Bt%7D%5Cright%29%5E%7B2%7D%7D其中%5Calpha为要调的超参数,0%3C%5Calpha%3C1

Adam建议采用Pytorch默认的参数。

Adam的调整策略如下:

04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习2021年度

版权声明:本文为博主iioSnail原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/zhaohongfei_358/article/details/123176219

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年3月1日 下午3:46
下一篇 2022年3月1日

相关推荐