在测试或者预测时，Transformer里decoder为什么还需要seq mask？_transformer推理过程中 decoder还需要进行mask操作嘛

作者：weixin_40725706 | 2024-04-01 10:14:46

transformer推理过程中 decoder还需要进行mask操作嘛

这个sublayer里会用一个三角矩阵来做mask。在training的时候，这个mask是为了保证causality，即把将来的数据mask掉，这都比较好理解。但是在做testing的时候，为什么还要继续使用这个mask了？

如在http://nlp.seas.harvard.edu/2018/04/03/attention.html#batches-and-masking 里

在testing 或 inferring的时候ÿ

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】