当前位置:   article > 正文

transformer 解码_Transformer的每一个编码层都学到了什么?

transformer学到了什么

Transformer现在已经被广泛应用于NLP领域的各项任务中,并且都取得了非常好的效果。其核心层使用了自注意力机制,关于为什么使用自注意力机制,作者提出了三点原因:计算复杂度:Transformer的计算复杂度比RNN和CNN都要低

并行计算:Transformer可以进行并行计算,这也是作者提出Transformer模型的初衷

远距离长程依赖的路径距离:Transformer有更短的路径距离,因此更容易学习到远程的依赖关系。

前两个原因我们不做过多的介绍,只要仔细思考就可以理解,而且这两个是属于确定性问题,是可以通过理论分析得出的结论。但是第三点却是Transformer有效性的决定因素,而且无法进行理论分析(现在深度学习中的模型可解释性仍然是个研究热点),只有通过实验进行分析。本文就通过解读An Analysis of Encoder Representations in Transformer-Based Machine Translation这篇论文来看下Transformer作者提出的第三点原因是否成立,并且深入理解Transformer每一层注意力都学到了什么。

本文通过不同方法分析了encoder层的注意力权重:可视化注意力权重

注意力权重的树结构生成

将encoder作为不同预测任务的输入

将其中一个encoder的知识迁移到另一个里面

在研究Transformer中的注意力之前先训练一个Transformer模型,表1列出了训练模型的数据,表2列出了每组数据的bleu值:

表1:训练样本统计# Training sentencesEnglish → Czech51,391,404

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号