Transformer(cpu)代码复现_transformers cpu

作者：你好赵伟 | 2024-04-02 12:31:55
踩
transformers cpu
逐行注释，逐行解析。可直接运行。
code from https://github.com/graykode/nlp-tutorial/tree/master/5-1.Transformer

import numpy as np
import torch
import torch.nn as nn
import math
import time
import torch.optim as optim
from torch.utils.data import Dataset,DataLoader
 
 
# 13. MyDataset
class MyDataset(Dataset):
    # 读数据
    def __init__(self, enc_inputs, dec_inputs, target_batch):
        self.enc_inputs = enc_inputs
        self.dec_inputs = dec_inputs
        self.target_batch = target_batch
 
    # 返回数据长度（有几行数据）
    def __len__(self):
        return len(self.enc_inputs)
        # return self.enc_inputs.shape[0]
 
    # 返回相对位置上的元素，会比make_batch函数返回的tensor数据少一个维度
    def __getitem__(self, idx):
        return self.enc_inputs[idx], self.dec_inputs[idx], self.target_batch[idx]
 
 
# 12. make_batch
def make_batch(sentences):
    input_batch = [[src_vocab[n] for n in sentences[0].split()]]  # [[1, 2, 3, 4, 0]]
    output_batch = [[tgt_vocab[n] for n in sentences[1].split()]]  # [[5, 1, 2, 3, 4]]
    target_batch = [[tgt_vocab[n] for n in sentences[2].split()]]  # [[1, 2, 3, 4, 6]]
    return torch.LongTensor(input_batch), torch.LongTensor(output_batch), torch.LongTensor(target_batch)
 
 
# 11. get_attn_subsequent_mask
def get_attn_subsequent_mask(seq):
    attn_shape = [seq.size(0), seq.size(1), seq.size(1)]  # [1, 5, 5]
    subsequence_mask = np.triu(np.ones(attn_shape), k=1)  # ndarray [1, 5, 5]
    # .byte() is equivalent to self.to(torch.uint8)
    subsequence_mask = torch.from_numpy(subsequence_mask).byte()  # [1, 5, 5]
    return subsequence_mask
 
 
# 10. DecoderLayer：包含三个部分，带Mask的多头自注意力层、交互注意力层、前馈神经网络
class DecoderLayer(nn.Module):
    def __init__(self):
        super(DecoderLayer, self).__init__()
        self.dec_self_attn = MultiHeadAttention()
        self.dec_enc_attn = MultiHeadAttention()
        self.pos_fnn = PoswiseFeedForwardNet()
 
    #                [1, 5, 512]  [1, 5, 512]      [1, 5, 5]           [1, 5, 5]
    def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):
        # dec_self_attn===[1, 8, 5, 5]  dec_outputs===[1, 5, 512]
        dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask)
        # dec_enc_attn===[1, 8, 5, 5]  dec_outputs===[1, 5, 512]
        dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask)
        dec_outputs = self.pos_fnn(dec_outputs)  # [1, 5, 512]
        return dec_outputs, dec_self_attn, dec_enc_attn
 
 
# 9. Decoder包含三个部分：词向量Embedding、位置编码部分、(带Masked自注意力层、交互注意力层、前馈神经网络)
class Decoder(nn.Module):
    def __init__(self):
        super(Decoder, self).__init__()
        self.tgt_emb = nn.Embedding(tgt_vocab_size, d_model)  # [7, 512]
        self.pos_emb = PositionalEncoding(d_model)
        self.layers = nn.ModuleList([DecoderLayer() for _ in range(n_layers)])  # 10.
 
    def forward(self, dec_inputs, enc_inputs, enc_outputs):
        dec_outputs = self.tgt_emb(dec_inputs)  # [1, 5, 512]
        dec_outputs = self.pos_emb(dec_outputs.transpose(0, 1)).transpose(0, 1)  # [1, 5, 512]--->[5, 1, 512]--->[1, 5, 512]
        # 声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/352545
推荐阅读
articleNvidia Jetson AGX Xavier 安装 Swin-Transformer-Objec...
一. 安装Anaconda由于Nvidia Jetson AGX Xavier是arrch64架构所以无法安装Anaco...
                                    赞
踩
article[Transformer]DN-DETR:Accelerate DETR Training by I...
DN-DETR:引入query去噪训练用于加速DETR训练 AbstractSection I Introduction...
                                    赞
踩
article【DETR】1、DETR | 首个使用 Transformers 的目标检测器_detr,用cnn提...
本文主要介绍 DETR_detr,用cnn提取图像特征detr,用cnn提取图像特征                  ...
                                    赞
踩
article【计算机视觉】Transformer 从 NLP 到 CV_3.cv_nlp_transformer...
一、前言CV（计算机视觉）领域一直是引领机器学习的弄潮儿。近年来更是因为 Transformer模型的横空出世而掀起了一...
                                    赞
踩
article计算机视觉"新"范式: Transformer...
本文转自Smarter。自从Transformer出来以后，Transformer便开始在NLP领域一统江湖。而Tran...
                                    赞
踩
articleTransformer Meets Tracker: Exploiting Temporal Con...
Transformer Meets Tracker: Exploiting Temporal Context for R...
                                    赞
踩
articleVision Transformer 论文_vision transformer论文...
https://openreview.net/pdf?id=YicbFdNTTyAN IMAGE IS WORTH 16...
                                    赞
踩
article【开源】Transformer 在CV领域全面开花：新出跟踪、分割、配准等总结...
本文收录 5 月 以来值得关注的 Transformer 相关开源论文，包括基于 Transformer 的自监督学习方...
                                    赞
踩
articleTransformer：为什么要在计算机视觉领域使用Transformer？（一）_视觉transf...
一. self-attention1. 处理Sequence数据要处理一个Sequence，最常想到的就是使用RNN，它...
                                    赞
踩
article【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递...
【计算机视觉 | Transformer】arxiv 计算机视觉关于Transformer的学术速递（9 月 18 日论...
                                    赞
踩
articleTransformers in Single Object Tracking An Experime...
本文主要介绍了基于Transformer的单目标跟踪方法，对这些方法进行了分类、分析、评估和比较，并提出了未来的研究方向...
                                    赞
踩
articleTransformer 估算 101...
本文主要介绍用于估算 transformer 类模型计算量需求和内存需求的相关数学方法。引言其实，很多有关 transf...
                                    赞
踩
articleSpatial-Temporal Graph Transm>form>mer m>form> Multiple Ob...
作者提出了一个时空图m>transm>form>merm>（STGT）的方法，利用图Transm>form>mer去建模目标时间和空间的交互。 ...
                                    赞
踩
articleTransformer 综述 & Transformers in Vision: A Survey_...
来自自然语言任务的Transformer模型的惊人结果引起了视觉界的兴趣，他们研究了它们在计算机视觉问题中的应用。与长短...
                                    赞
踩
article学习总结——注意力机制(transformer、DETR)_detr相比于transformer的区...
将Ci送入softmax函数中，得到概率Pi，将Pi与Vi相乘再相加得到VT，这个VT是Query的Value，这样就将...
                                    赞
踩
article[Video Transformer] X-ViT: Space-time Mixing Atten...
论文： https://arxiv.org/abs/2106.05968代码：Home | Adrian BulatGi...
                                    赞
踩
article【综述】Transformers in Remote Sensing: A Survey_sar i...
第一次系统地审查在遥感中基于变压器的最新进展。我们的调查涵盖了60多种最新的基于变压器的方法，用于遥感领域的不同遥感问题...
                                    赞
踩
articlePytorch复现 Transformer cssdn...
这表示对于每个批次中的32个样本的每个位置，模型都会输出一个10000维的向量，向量表示每个词汇的分数或概率。使用PyT...
                                    赞
踩
article配置mmdet来训练Swin-Transformer之一配置环境_swin-transformer ...
文章介绍了在Ubuntu18.04环境下使用Pycharm和Anaconda创建虚拟环境，配置MMDetection以训...
                                    赞
踩
articleLLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解_kv缓存...
假设有一批输入序列（input sequences），数量为 b 个，每个序列由 N 个生成的 tokens 和 t 个...
                                    赞
踩
相关标签
transformer
深度学习
人工智能
计算机视觉
目标检测
机器学习
算法
自然语言处理
大数据
python