赞
踩
这个sublayer里会用一个三角矩阵来做mask。在training的时候,这个mask是为了保证causality,即把将来的数据mask掉,这都比较好理解。但是在做testing的时候,为什么还要继续使用这个mask了?
如在http://nlp.seas.harvard.edu/2018/04/03/attention.html#batches-and-masking 里
在testing 或 inferring的时候ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。