PyTorch实战：一步步构建Transformer模型_使用pytorch从0复现transformers经典架构

作者：秋刀鱼在做梦 | 2024-07-20 17:43:21

踩

使用pytorch从0复现transformers经典架构

对于论文给出的模型架构，使用 PyTorch 分别实现各个部分。

引入的相关库函数：

	`import copy`
	`import torch`
	`import math`
	`from torch import nn`
	`from torch.nn.functional import log_softmax`

	`# module: 需要深拷贝的模块`
	`# n: 拷贝的次数`
	`# return: 深拷贝后的模块列表`
	`def clones(module, n: int) -> list:`
	`return [copy.deepcopy(module) for _ in range(n)]`

编码器由 N 个相同的编码层堆叠而成，每个编码层含两个子层：多头注意力层和前馈网络层。每个子层后跟着一层，用于残差连接与标准化。

对于上一层的结果：SubLayer(�)与输出上一层的变量：�做残差连接并进行标准化：LayerNorm(�+Sublayer(�))。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/857800