赞
踩
目录
1 Decoder端的输入解析
1.1 Decoder端的架构
1.2 Decoder在训练阶段的输入解析
1.3 Decoder在预测阶段的输入解析
Transformer原始论文中的Decoder模块是由N=6个相同的Decoder Block堆叠而成, 其中每一个Block是由3个子模块构成, 分别是多头self-attention模块, Encoder-Decoder attention模块, 前馈全连接层模块.