学习率设置

社会演员多 • 2023年2月25日下午4:04 • 技术文章 • 阅读 177

在我们刚刚接触深度学习时，对学习率只有一个很基础的认知，当学习率过大的时候会导致模型难以收敛，过小的时候会收敛速度过慢，其实学习率是一个十分重要的参数，合理的学习率才能让模型收敛到最小点而非局部最优点或鞍点。

Table of Contents

1 什么是学习率

学习率是训练神经网络的重要超参数之一，它代表在每一次迭代中梯度向损失函数最优解移动的步长，通常用学习率设置表示。它的大小决定网络学习速度的快慢。在网络训练过程中，模型通过样本数据给出预测值，计算代价函数并通过反向传播来调整参数。重复上述过程，使得模型参数逐步趋于最优解从而获得最优模型。在这个过程中，学习率负责控制每一步参数更新的步长。合适的学习率可以使代价函数以合适的速度收敛到最小值。

2 学习率对网络的影响

梯度更新公式：学习率设置

根据上述公式我们可以看到，如果学习率学习率设置较大，那么参数的更新速度就会很快，可以加快网络的收敛速度，但如果学习率过大，可能会导致参数在最优解附近震荡，代价函数难以收敛，甚至可能会错过最优解，导致参数向错误的方向更新，代价函数不仅不收敛反而可能爆炸（如图1a所示）。

如果学习率学习率设置较小，网络可能不会错过最优点，但是网络学习速度会变慢。同时，如果学习率过小，则很可能会陷入局部最优点（如图1b所示）。

因此，只有找到合适的学习率，才能保证代价函数以较快的速度逼近全局最优解。

对于深度学习模型训练时，在梯度下降法中，固定学习率时，当到达收敛状态时，会在最优值附近一个较大的区域内摆动；而当随着迭代轮次的增加而减小学习率，会使得在收敛时，在最优值附近一个更小的区域内摆动。（之所以曲线震荡朝向最优值收敛，是因为在每一个mini-batch中都存在噪音）。如下图所示。

文章出处登录后可见！

已经登录？立即刷新

学习率设置

1 什么是学习率

2 学习率对网络的影响

相关推荐