时间序列学习(5)——LSTM 基本原理

1 从 RNN 说起

       循环神经网络Recurrent Neural Network,RNN 是一种用于处理序列数据的神经网络。

        相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。

2 RNN的缺点,为什么要引入LSTM

        长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。

        简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

  • RNN 仅有一个传递状态 时间序列学习(5)——LSTM 基本原理, 而LSTM 具有两个传递状态,分别是时间序列学习(5)——LSTM 基本原理 【注意,LSTM中的时间序列学习(5)——LSTM 基本原理 相当于 RNN中的 时间序列学习(5)——LSTM 基本原理

3 介绍LSTM 的门结构

  • 相信大家都知道了LSTM有3个门,遗忘门、输入门和输出门,下面就从三个门讲些细节!

3.1 遗忘门(遗忘阶段)

遗忘阶段以粉色突出显示

时间序列学习(5)——LSTM 基本原理:电流输入
时间序列学习(5)——LSTM 基本原理:上一层传下来的状态

  1. 先算出时间序列学习(5)——LSTM 基本原理,也就是遗忘门的开口(开口的大小可以说是很形象了)

时间序列学习(5)——LSTM 基本原理 : 是输出0-1 之间的数,这样 时间序列学习(5)——LSTM 基本原理 就是一个 0-1 之间的数

  1. 那么时间序列学习(5)——LSTM 基本原理×时间序列学习(5)——LSTM 基本原理可以理解为选择性地忘记前一个节点发过来的数据来控制时间序列学习(5)——LSTM 基本原理中的信息,哪些需要忘记,哪些需要记住。

3.2 输入门

  1. 同理,先计算输入门的开度,时间序列学习(5)——LSTM 基本原理

时间序列学习(5)——LSTM 基本原理:电流输入
时间序列学习(5)——LSTM 基本原理:上一层传下来的状态
时间序列学习(5)——LSTM 基本原理:是由 propagation 决定的

  1. 对于当前的输入 时间序列学习(5)——LSTM 基本原理 , 是还要做一个 tanh 运算的。

3.3 相加得到 Ct

  • 这里用 时间序列学习(5)——LSTM 基本原理 来表示memory(是一个传递状态)

3.4 输出门

  1. 同理,先计算输出门的开度,时间序列学习(5)——LSTM 基本原理
  2. 计算时间序列学习(5)——LSTM 基本原理,传给下一层

3.5 总结+公式推导

4 为什么LSTM能够解决Gradient Vanishing的问题

参考博文:

https://blog.csdn.net/qq_38147421/article/details/107692418

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
社会演员多的头像社会演员多普通用户
上一篇 2022年5月6日
下一篇 2022年5月7日

相关推荐

此站出售,如需请站内私信或者邮箱!