当前位置:   article > 正文

在测试或者预测时,Transformer里decoder为什么还需要seq mask?_transformer推理过程中 decoder还需要进行mask操作嘛

transformer推理过程中 decoder还需要进行mask操作嘛

 

https://pic3.zhimg.com/v2-5d7dd4ac049a1fd2a62d098e5c47d336_b.png

这个sublayer里会用一个三角矩阵来做mask。在training的时候,这个mask是为了保证causality,即把将来的数据mask掉,这都比较好理解。但是在做testing的时候,为什么还要继续使用这个mask了?

如在http://nlp.seas.harvard.edu/2018/04/03/attention.html#batches-and-masking 里

https://pic4.zhimg.com/v2-7cc40fb38b35bac7590dc57710a8fdf3_b.png

在testing 或 inferring的时候ÿ

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号