当前位置:   article > 正文

PyTorch实战:一步步构建Transformer模型_使用pytorch从0复现transformers经典架构

使用pytorch从0复现transformers经典架构
  1. 关于Transformer原理与论文的介绍:
    详细了解Transformer:Attention Is All You Need

对于论文给出的模型架构,使用 PyTorch 分别实现各个部分。

引入的相关库函数:

import copy
import torch
import math
from torch import nn
from torch.nn.functional import log_softmax
# module: 需要深拷贝的模块
# n: 拷贝的次数
# return: 深拷贝后的模块列表
def clones(module, n: int) -> list:
return [copy.deepcopy(module) for _ in range(n)]
  1. 编码器与解码器堆叠

Encoder 编码器

编码器由 N 个相同的编码层堆叠而成,每个编码层含两个子层:多头注意力层和前馈网络层。每个子层后跟着一层,用于残差连接与标准化。

Add & Norm 残差连接和标准化

对于上一层的结果:SubLayer(�)与输出上一层的变量:�做残差连接并进行标准化:LayerNorm(�+Sublayer(�))。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/857800
推荐阅读
相关标签
  

闽ICP备14008679号