当前位置:   article > 正文

[博学谷学习记录] 超强总结,用心分享|人工智能深度学习Transformer中Decoder端机制总结分享_decoder端的block包括三个模块

decoder端的block包括三个模块

目录

1 Decoder端的输入解析

1.1 Decoder端的架构

1.2 Decoder在训练阶段的输入解析

1.3 Decoder在预测阶段的输入解析


1 Decoder端的输入解析

1.1 Decoder端的架构

Transformer原始论文中的Decoder模块是由N=6个相同的Decoder Block堆叠而成, 其中每一个Block是由3个子模块构成, 分别是多头self-attention模块, Encoder-Decoder attention模块, 前馈全连接层模块.

  • 6个Block的输入不完全相同:
    • 最下面的一层Block接收的输入是经历了MASK之后的Decoder端的输入 + Encoder端的输出.
    • 其他5层Block接收的输入模式一致, 都是前一层Block的输出 + Encoder端的输出.

1.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/393949
推荐阅读
相关标签
  

闽ICP备14008679号