transformer 解码_Transformer的每一个编码层都学到了什么？

作者：weixin_40725706 | 2024-07-05 01:58:33

踩

transformer学到了什么

Transformer现在已经被广泛应用于NLP领域的各项任务中，并且都取得了非常好的效果。其核心层使用了自注意力机制，关于为什么使用自注意力机制，作者提出了三点原因：计算复杂度：Transformer的计算复杂度比RNN和CNN都要低

并行计算：Transformer可以进行并行计算，这也是作者提出Transformer模型的初衷

远距离长程依赖的路径距离：Transformer有更短的路径距离，因此更容易学习到远程的依赖关系。

前两个原因我们不做过多的介绍，只要仔细思考就可以理解，而且这两个是属于确定性问题，是可以通过理论分析得出的结论。但是第三点却是Transformer有效性的决定因素，而且无法进行理论分析(现在深度学习中的模型可解释性仍然是个研究热点)，只有通过实验进行分析。本文就通过解读An Analysis of Encoder Representations in Transformer-Based Machine Translation这篇论文来看下Transformer作者提出的第三点原因是否成立，并且深入理解Transformer每一层注意力都学到了什么。

本文通过不同方法分析了encoder层的注意力权重：可视化注意力权重

注意力权重的树结构生成

将encoder作为不同预测任务的输入

将其中一个encoder的知识迁移到另一个里面

在研究Transformer中的注意力之前先训练一个Transformer模型，表1列出了训练模型的数据，表2列出了每组数据的bleu值：

表1：训练样本统计# Training sentencesEnglish → Czech51,391,404

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】