GELU激活函数

GELU激活函数

论文:GAUSSIAN ERROR LINEAR UNITS (GELUS)

年份:2016

ReLU激活函数的公式可以理解为:
GELU激活函数
ReLU、Dropout等机制都希望将\textbf{不重要}的激活信息规整为零。也就是对于输入的值,根据它需要的情况乘以1或0,需要乘以谁不像ReLU人工定义,而是根输入有关。更为数学的描述,对于一个输入GELU激活函数,即GELU激活函数服从标准正态分布,而输入GELU激活函数还要乘上一个伯努利分布GELU激活函数
随着GELU激活函数的降低,输出值被归为0的概率就会升高。对于ReLU,这个界限就是0,输入小于0时,输出就归为0。
则怎么判断这个伯努利试验到底失败还是成功呢?则在引入GELU激活函数来控制伯努利试验成功的概率即:
GELU激活函数
这个表达式表示根据GELU激活函数比其它输入大多少来缩放它。由于高斯分布的累积分布函数通常用误差函数来计算,因此将高斯误差线性单元)(GELU)定义为:
GELU激活函数
近似于
GELU激活函数

GELU激活函数时,将GELU称为Sigmoid Linear Unit(SiLU)激活函数。

GELU激活函数的曲线和导数曲线如下图所示。
在这里插入图片描述

  • GELU为非单调激活函数,有助于保持小的负值,从而稳定网络梯度流;
  • GELU在0附近接近与恒等函数GELU激活函数
  • GELU的最小值为-0.21,值域为GELU激活函数。上界是任何激活函数都需要的特征,因为这样可以避免导致训练速度急剧下降的梯度饱和,因此加快训练过程。无下界有助于实现强正则化效果;
  • GELU的梯度不容易造成梯度爆炸和梯度消失。
  • 光滑性:光滑的激活函数有较好的泛化能力和稳定的优化能力,可以提高模型的性能

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年2月25日 下午9:17
下一篇 2023年2月25日

相关推荐