LSTM与RNN的区别_rnn和lstm区别

作者：Li_阴宅 | 2024-08-06 22:35:04

踩

rnn和lstm区别

1. RNN

RNN能够处理一定的短期依赖，但无法处理长期依赖问题。因为当序列较长时，序列后部的梯度很难反向传播到前面的序列，这就产生了梯度消失问题。当然，RNN也存在梯度爆炸问题，但这个问题一般可以通过梯度裁剪（gradient clipping）来解决。
RNN网络结构如下：

$h_t$ 为timestep t的隐藏层状态值， $x_t$ 为输入， $h_t$ 实际上还要经过softmax或者别的函数处理得到输出 $\widehat{y}_t$ 。
上图中RNN单元的计算公式为：
$h_t=tanh(W_h.[h_{t-1},x_t]+b_h)$ 由公式我们可以看到，RNN本时刻的隐藏层信息只来源于当前输入和上一时刻的隐藏层信息，没有记忆功能。

2. LSTM

LSTM的网络结构相比于RNN复杂了很多。从微观上看，LSTM引入了细胞状态，并使用输入门、遗忘门、输出门三种门来保持和控制信息。

具体的，LSTM某个timstep t的计算公式如下所示： $f_t=\sigma(W_f.[h_{t-1}, x_t]+b_f)$ $i_t=\sigma(W_i.[h_{t-1}, x_t]+b_i)$ $\widetilde{c}_t=tanh(W_c.[h_{t-1}, x_t]+b_c)$ $c_t=f_t \times c_{t-1}+i_t\times\widetilde{c}_t$ $o_t=\sigma(W_o.[h_{t-1}, x_t]+b_o)$ $h_t=o_t\times tanh(c_t)$
上述公式中， $f_t$ 为遗忘门、 $i_t$ 为输入门、 $o_t$ 为输出门、 $c_t$ 为细胞状态、 $\widetilde{c}_t$ 为细胞状态候选值、 $h_t$ 为隐藏层状态值、 $W$ 和 $b$ 为权重和偏置。

忘记阶段 $f_t$
遗忘门结合上一隐藏层状态值 $h_{t-1}$ 和当前输入 $x_t$ ，通过sigmoid函数 $\sigma$ ，决定舍弃哪些旧信息。sigmoid值域为(0, 1)，当其值接近于0时丢弃一部分信息，当其值接近于1时保持信息。sigmoid函数曲线如下图所示（图取自百度百科）：
选择记忆阶段
输入门和tanh决定从上一时刻隐藏层激活值 $h_{t-1}$ 和当前输入值 $x_t$ 中保存哪些新信息，并得到候选值 $\widetilde{c}_t$ 。
输出阶段
输出门结合tanh决定 $h_{t-1}$ ， $x_t$ ， $c_t$ 中哪些信息输出为本时刻的隐藏层状态 $h_t$ 。
LSTM通过上述的方式决定如何舍弃、保持和更新信息，因为最后的结果 $h_t$ 是由多个函数作用并结合RNN所没有的求和操作（除了加偏置之外的求和）得来的，所以在反向传播过程中不容易产生梯度消失问题。
另外，从宏观角度看，LSTM各个timestep的细胞状态之间有一条直线相连，直线上结合了输入门和遗忘门的信息，这暗示我们只要合理的设置输入门和遗忘门，就可以控制LSTM长期记忆某个timestep细胞状态的值。
综上，RNN和LSTM的区别如下：

RNN没有细胞状态；LSTM通过细胞状态记忆信息。
RNN激活函数只有tanh；LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数，添加求和操作，减少梯度消失和梯度爆炸的可能性。
RNN只能够处理短期依赖问题；LSTM既能够处理短期依赖问题，又能够处理长期依赖问题。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/939647