当前位置:   article > 正文

从头开始构建和训练 Transformer(上)_transformer 搭建训练模型

transformer 搭建训练模型

1、导 读

2017 年,Google 研究团队发表了一篇名为《Attention Is All You Need》的论文,提出了 Transformer 架构,是机器学习,特别是深度学习和自然语言处理领域的范式转变。

Transformer 具有并行处理功能,可以实现更高效、可扩展的模型,从而更容易在大型数据集上训练它们。它还在情感分析和文本生成任务等多项 NLP 任务中表现出了卓越的性能。

在本笔记本中,我们将探索 Transformer 架构及其所有组件。我将使用 PyTorch 构建所有必要的结构和块,并且我将在 PyTorch 上使用从头开始编Transformer。

  1. # 导入库
  2. # PyTorch 
  3. import torch 
  4. import torch.nn as nn 
  5. from torch.utils.data import Dataset, DataLoader, random_split 
  6. from torch.utils.tensorboard import SummaryWriter 
  7. # Math 
  8. import math 
  9. # HuggingFace 库
  10. from datasets import load_dataset 
  11. from tokenizers import Tokenizer 
  12. from tokenizers .models import WordLevel 
  13. from tokenizers.trainers import WordLevelTrainer 
  14. from tokenizers.pre_tokenizers import Whitespace 
  15. # Pathlib 
  16. from pathlib import Path 
  17. # Typing 
  18. from Typing import  Any 
  19. # 循环中进度条的库
  20. from tqdm import tqdm 
  21. # 导入警告库
  22. import warnings

2、Transformer 架构

在编码之前,我们先看一下Transformer的架构。

Transformer 架构有两个主要模块:编码器解码器。让我们进一步看看它们。

编码器:它具有多头注意力机制和全连接的前馈网络。两个子层周围还有残差连接,以及每个子层输出的层归一化。模型中的所有子层和嵌入层都会产生维度 声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】

推荐阅读
相关标签