使用梯度下降法时要谨慎的调整学习率:
Feature Scaling:每一个参数的scaling要尽可能相匹配(对于多个参数情况,scaling匹配时不同参数的学习率迭代过程相近且迭代过程沿着目标方向进行)。如何进行Feature Scaling?数据标准化方法(处理后的数据均值为0,方差为1)。
为什么梯度下降的方向迭代是这样的?
当
当损失函数在一个小的邻域圈内时,有
令
令
Adaptive Learning Rates:在开始时离目标很远,设置较大的学习率;在经过几个epoch后离目标很近,需要设置较小的学习率(学习率随着epoch的增加呈现出衰减的趋势,例如设置学习率为
Adagrad:
Stochastic Gradient Descent:随机选取一个样本
文章出处登录后可见!
已经登录?立即刷新