赞
踩
Transformer现在已经被广泛应用于NLP领域的各项任务中,并且都取得了非常好的效果。其核心层使用了自注意力机制,关于为什么使用自注意力机制,作者提出了三点原因:计算复杂度:Transformer的计算复杂度比RNN和CNN都要低
并行计算:Transformer可以进行并行计算,这也是作者提出Transformer模型的初衷
远距离长程依赖的路径距离:Transformer有更短的路径距离,因此更容易学习到远程的依赖关系。
前两个原因我们不做过多的介绍,只要仔细思考就可以理解,而且这两个是属于确定性问题,是可以通过理论分析得出的结论。但是第三点却是Transformer有效性的决定因素,而且无法进行理论分析(现在深度学习中的模型可解释性仍然是个研究热点),只有通过实验进行分析。本文就通过解读An Analysis of Encoder Representations in Transformer-Based Machine Translation这篇论文来看下Transformer作者提出的第三点原因是否成立,并且深入理解Transformer每一层注意力都学到了什么。
本文通过不同方法分析了encoder层的注意力权重:可视化注意力权重
注意力权重的树结构生成
将encoder作为不同预测任务的输入
将其中一个encoder的知识迁移到另一个里面
在研究Transformer中的注意力之前先训练一个Transformer模型,表1列出了训练模型的数据,表2列出了每组数据的bleu值:
表1:训练样本统计# Training sentencesEnglish → Czech51,391,404
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。