赞
踩
这里发现有大量的连乘项,如果连乘项过多很容易梯度消失或梯度爆炸,对此,进行进一步的分析。
根据前面RNN推导我们发现,由于RNN隐藏层之间存在连乘项,且连乘项越多,代表前面输入数据和后面输入数据之间距离越大,会形成梯度消失或者梯度爆炸情况,而这里截取LSTM Ct和Ct-1,对Ct-1进行求导,如图,求导发现只存在只有遗忘门一项,且通过sigmod激活函数后,取值在在0-1之间,因此,不存在梯度爆炸情况的发生,如果通过控制将值趋近于1,也避免了梯度消失的情况。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。