cs224n学习笔记4

社会演员多 • 2022年2月28日下午6:18 • 技术文章 • 阅读 635

内容

Recurrent Neural Network 递归神经网络

N-grams

RNN 递归神经网络

RNN的训练：The vanishing/exploding gradient problem 梯度消失/爆炸问题

Bidirectional RNNs 双向循环神经网络

评估：F1-score

Table of Contents

Recurrent Neural Network 递归神经网络

场景：计算一个单词序列的概率

思路：根据前 $n-1$ 词来预测 $n$ 词的概率，但这会占用大量内存

每一层使用相同的神经网络，训练相同的参数矩阵，通过上层结果和新的输入变量联合预测结果

词向量序列为 $x_1, x_2, ... , x_t$ ，参数矩阵可分为 $W^{(hh)},W^{(hx)},W^{(S)}$ 三部分，各层预测的概率向量为 $\widehat{y}_t$ ，各层的神经网络如下

损失函数：使用交叉熵损失函数

根据梯度下降，因为权重矩阵 $W$ 出现在每一层，推导时

如果 $W$ 的初始化范数小于或大于1，随着序列变长 $t-k$ 增大， $\frac{\partial h_t}{\partial h_k}$ 也会迅速缩小或增大，成为梯度消失/梯度爆炸

梯度爆炸解：定义梯度阈值，梯度截断法

梯度消失解决方案：恒等初始化结合ReLu线性整流函数

应用场景：情感分析&意见挖掘，此时无需考虑文本中词序的方向

进一步还可扩展为Deep Bidirectional RNNs