深度学习基础9(优化算法,梯度下降,小批量随机梯度下降,超参数)

基本优化方法

DQ`DEUSV1QYM_(~%TIBW_$0

这个图可以直观的看到找到最优解的路线

梯度下降

77UHEMXD7`%87OCUF}2{GPK

具有显式解决方案的模型非常简单,但是我们将来要解决的几乎所有问题都没有显式解决方案。

当模型没有显示解决方案时会发生什么?

让我们谈谈梯度下降:

  • 梯度下降是通过沿逆梯度方向不断更新参数来解决的
  • 挑选一个参数的随机初始值w0
  • 重复迭代参数t=1,2,3(在接下来的时刻里不断更新w0,来接近我们的最优解)KOY)K5CVH(SGW0{`I@98HO
    (上图为更新法则,意思是:上一个时刻 减去 学习率(标量)*损失函数关于t-1时刻的梯度)
  • 沿着梯度方向会增加损失函数值
  • 学习率:步长的超参数

然后选择既不太小也不太大的学习率:

(RQ({F4YK1EYW{$5{V

如果太大,就相当于一直在震荡,而不是跌落。

小批量随机梯度下降

小批量随机梯度下降是深度学习的默认解算法

我们经常使用的方法不是梯度下降,而是小批量的随机梯度下降,因为每次计算梯度都需要导出整个损失函数,相当于对梯度计算整个样本一次。 (计算梯度的复杂度与样本数成线性关系)

Y(CKI$YQO41$1LP7OJCGVQG

同样,批量大小不能太大或太小:

  • 每次计算量太小,无法并行使用计算资源
  • 太大,内存消耗增加,计算浪费(如果所有样本都相同)

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2022年3月28日 下午2:03
下一篇 2022年3月28日

相关推荐