当前位置:   article > 正文

基于Transformer解决机器翻译任务学习笔记记录#AI夏令营 #Datawhale #夏令营_transformer for machine learning

transformer for machine learning

目录

一、任务背景

1.1 赛事背景

1.2 赛事任务

1.3 赛题数据

1.4 参数解析

二、原理介绍:Transformer 介绍

2.1 嵌入表示层

2.2  注意力层

2.3  前馈层

2.4  残差连接与层归一化

2.5  编码器和解码器结构

三、实操部分:基于Transformer机器翻译任务

3.1 首先导入所需要的模块

3.2 数据预处理

3.3 翻译处理模块

3.4 collate-fn函数

collate_fn的用处:

collate_fn的使用

3.5 数据加载函数 

3.6  定义位置编码类

3.7 重点来了:transfomer模型构建部分

3.8 模型训练

3.8.1 定义优化器函数

3.8.2 定义运行时间函数

3.8.3 定义训练函数

3.8.4 定义翻译句子函数

3.8.5 计算BELU分数


一、任务背景

1.1 赛事背景

目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

1.2 赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果

1.3 赛题数据

  • 训练集:双语数据 - 中英14万余双语句对

  • 开发集:英中1000双语句对

  • 测试集:英中1000双语句对

  • 术语词典:英中2226条

  • 训练集(training set)用于运行你的学习算法。

  • 开发集(development set)用于调整参数,选择特征,以及对学习算法作出其它决定。有时也称为留出交叉验证集(hold-out cross validation set)

  • 测试集(test set)用于评估算法的性能,但不会据此改变学习算法或参数。

1.4 参数解析

可以注意到修改了N和N_EPOCHS。

N:选择数据集的前N个样本进行训练。

N_EPOCHS:一次epoch是指将所有数据训练一遍的次数。

二、原理介绍:Transformer 介绍

基于循环卷积神经网络的序列到序列建模方法是现存机器翻译任务中的经典方法。然而,它们在建模文本长程依赖方面都存在一定的局限性

  • 对于卷积神经网络来说,受限的上下文窗口在建模长文本方面天然地存在不足。如果要对长距离依赖进行描述,需要多层卷积操作,而且不同层之间信息传递也可能有损失,这些都限制了模型的能力。

  • 而对于循环神经网络来说,上下文的语义依赖是通过维护循环单元中的隐状态实现的。在编码过程中,每一个时间步的输入建模都涉及到对隐藏状态的修改。随着序列长度的增加,编码在隐藏状态中的序列早期的上下文信息被逐渐遗忘。尽管注意力机制的引入在一定程度上缓解了这个问题,但循环网络在编码效率方面仍存在很大的不足之处。由于编码端和解码端的每一个时间步的隐藏状态都依赖于前一时间步的计算结果,这就造成了在训练和推断阶段的低效。

Transformer 在原论文中第一次提出就是将其应用到机器翻译领域,它的出现使得机器翻译的性能和效率迈向了一个新的阶段。它摒弃了循环结构,并完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。在抽取每个单词的上下文特征时,Transformer 通过自注意力机制(self-attention)衡量上下文中每一个单词对当前单词的重要程度。

在这个过程当中没有任何的循环单元参与计算。这种高度可并行化的编码过程使得模型的运行变得十分高效。当前几乎大部分的大语言模型都是基于 Transformer 结构,本节以应用于机器翻译的基于Transformer 的编码器和解码器介绍该模型。

Transformer的主要组件包括编码器(Encoder)、解码器(Decoder)和注意力层。其核心是利用多头自注意力机制(Multi-Head Self-Attention),使每个位置的表示不仅依赖于当前位置,还能够直接获取其他位置的表示。自从提出以来,Transformer模型在机器翻译、文本生成等自然语言处理任务中均取得了突破性进展,成为NLP领域新的主流模型。

 下图为Transformer 模型的基本架构:

从宏观角度来看,Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层(子层表示为sublayer)。第⼀个子层是多头自注意力(multi-head self-attention)汇聚;第二个子层是基于位置的前馈网络(positionwise feed-forward network)。主要涉及到如下几个模块:

2.1 嵌入表示层

对于输入文本序列,先通过一个输入嵌入层(Input Embedding)将每个单词转换为其相对应的向量表示。通常直接对每个单词创建一个向量表示。由于 Transfomer 模型不再使用基于循环的方式建模文本输入,序列中不再有任何信息能够提示模型单词之间的相对位置关系。在送入编码器端建模其上下文语义之前,一个非常重要的操作是在词嵌入中加入位置编码(Positional Encoding)这一特征。具体来说,序列中每一个单词所在的位置都对应一个向量。这一向量会与单词表示对应相加并送入到后续模块中做进一步处理。在训练的过程当中,模型会自动地学习到如何利用这部分位置信息。位置编码的维度和词嵌入向量的维度相同( 均为 d_model),模型通过将二者相加作为模型输入

2.2  注意力层

自注意力(Self-Attention)操作是基于 Transformer 的机器翻译模型的基本操作,在源语言的编码和目标语言的生成中频繁地被使用以建模源语言、目标语言任意两个单词之间的依赖关系。为了防止过大的匹配分数在后续 Softmax 计算过程中导致的梯度爆炸以及收敛效率差的问题,这些得分会除放缩因子以稳定优化。放缩后的得分经过 Softmax 归一化为概率之后,与其他位置的值向量相乘来聚合希望关注的上下文信息,并最小化不相关信息的干扰。

2.3  前馈层

前馈层接受自注意力子层的输出作为输入,并通过一个带有 Relu 激活函数的两层全连接网络对输入进行更加复杂的非线性变换。实验证明,这一非线性变换会对模型最终的性能产生十分重要的影响。另外,以往的训练发现,增大前馈子层隐状态的维度有利于提升最终翻译结果的质量,因此,前馈子层隐状态的维度一般比自注意力子层要大

2.4  残差连接与层归一化

由 Transformer 结构组成的网络结构通常都是非常庞大。编码器和解码器均由很多层基本的Transformer 块组成,每一层当中都包含复杂的非线性映射,这就导致模型的训练比较困难。因此,研究者们在 Transformer 块中进一步引入了残差连接与层归一化技术以进一步提升训练的稳定性。具体来说,残差连接主要是指使用一条直连通道直接将对应子层的输入连接到输出上去,从而避免由于网络过深在优化过程中潜在的梯度消失问题。层归一化技术可以有效地缓解优化过程中潜在的不稳定、收敛速度慢等问题

2.5  编码器和解码器结构

根据给出的网络架构,编码器端可以较为容易实现。但相比于编码器端,解码器端要更复杂一些。具体来说,解码器的每个 Transformer 块的第一个自注意力子层额外增加了注意力掩码,对应图中的掩码多头注意力(Masked Multi-Head Attention)部分。这主要是因为在翻译的过程中,编码器端主要用于编码源语言序列的信息,而这个序列是完全已知的,因而编码器仅需要考虑如何融合上下文语义信息即可。而解码端则负责生成目标语言序列,这一生成过程是自回归的,即对于每一个单词的生成过程,仅有当前单词之前的目标语言序列是可以被观测的,因此这一额外增加的掩码是用来掩盖后续的文本信息,以防模型在训练阶段直接看到后续的文本序列进而无法得到有效地训练

此外,解码器端还额外增加了一个多头注意力(Multi-Head Attention)模块,使用交叉注意力(Cross-attention)方法,同时接收来自编码器端的输出以及当前 Transformer 块的前一个掩码注意力层的输出。查询是通过解码器前一层的输出进行投影的,而键和值是使用编码器的输出进行投影的。它的作用是在翻译的过程当中,为了生成合理的目标语言序列需要观测待翻译的源语言序列是什么。基于上述的编码器和解码器结构,待翻译的源语言文本,先经过编码器端的每个Transformer 块对其上下文语义的层层抽象,然后输出每一个源语言单词上下文相关的表示。解码器端以自回归的方式生成目标语言文本,即在每个时间步 t ,根据编码器端输出的源语言文本表示,以及前 t-1 个时刻生成的目标语言文本,生成当前时刻的目标语言单词。

三、实操部分:基于Transformer机器翻译任务

前置背景已经介绍完毕,以下为部署过程中的具体步骤。

这里由于魔镜可能会资源紧张,所以并没有使用老师推荐的方式进行部署和运行,而是采用本地化的方式学习。我这里选择的内核是之前搭好的虚拟环境yolo

这里简单插一句题外话,如何查看适合自己的Pytorch版本

查看自己的CUDA版本

命令行win +R  输入`nvidia-smi`或者

右上角的CUDA Version便是CUDA Driver API版本,这里可以看到是cuda12.4版本

 命令行win +R  输入 `nvcc -V` 

 查看运行时API 版本的前提是已将在电脑上安装了CUDA Toolkit,最下边一行便是CUDA Runtime API的版本。下载好CUDA toolkit,下一步就是安装cudnn。

接下来就是安装pytorch,进入pytorch官网,它会基于电脑配置给你推荐一套安装方案,如下图所示:

以上为环境配置基本情况,在此就不过多赘述,回到正文。

3.1 首先导入所需要的模块

  1. import torch
  2. import torch.nn as nn
  3. import torch.nn.functional as F
  4. import torch.optim as optim
  5. from torch.nn.utils import clip_grad_norm_
  6. from torchtext.data.metrics import bleu_score
  7. from torch.utils.data import Dataset, DataLoader
  8. from torchtext.data.utils import get_tokenizer
  9. from torchtext.vocab import build_vocab_from_iterator
  10. from typing import List, Tuple
  11. import jieba
  12. import random
  13. from torch.nn.utils.rnn import pad_sequence
  14. import sacrebleu
  15. import time
  16. import math
  • spacy:是一个强大的自然语言处理库,支持70+语言的分词与训练

安装spacy用于英文的tokenizer,不同环境的安装请参考:https://spacy.io/usageen_core_web_sm是用于英文的语言包,由于命令`!python -m spacy download en_core_web_sm`安装有点慢,这里可以离线安装:https://github.com/explosion/spacy-models/releases,下载压缩包后,上传到dataset目录,然后使用`!pip install ../dataset/en_core_web_sm`,en_core_web_sm 3.7.3版本的要求 spaCy >=3.7.2,<3.8.0

安装 spacy 用于英文的 tokenizer(分词,就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作),不同环境的安装请参考:https://spacy.io/usage

3.2 数据预处理

  1. # 定义tokenizer
  2. en_tokenizer = get_tokenizer('spacy', language='en_core_web_trf')
  3. zh_tokenizer = lambda x: list(jieba.cut(x)) # 使用jieba分词
  4. # 读取数据函数
  5. def read_data(file_path: str) -> List[str]:
  6. with open(file_path, 'r', encoding='utf-8') as f:
  7. return [line.strip() for line in f]
  8. # 数据预处理函数
  9. def preprocess_data(en_data: List[str], zh_data: List[str]) -> List[Tuple[List[str], List[str]]]:
  10. processed_data = []
  11. for en, zh in zip(en_data, zh_data):
  12. en_tokens = en_tokenizer(en.lower())[:MAX_LENGTH]
  13. zh_tokens = zh_tokenizer(zh)[:MAX_LENGTH]
  14. if en_tokens and zh_tokens: # 确保两个序列都不为空
  15. processed_data.append((en_tokens, zh_tokens))
  16. return processed_data
  17. # 构建词汇表
  18. def build_vocab(data: List[Tuple[List[str], List[str]]]):
  19. en_vocab = build_vocab_from_iterator(
  20. (en for en, _ in data),
  21. specials=['<unk>', '<pad>', '<bos>', '<eos>']
  22. )
  23. zh_vocab = build_vocab_from_iterator(
  24. (zh for _, zh in data),
  25. specials=['<unk>', '<pad>', '<bos>', '<eos>']
  26. )
  27. en_vocab.set_default_index(en_vocab['<unk>'])
  28. zh_vocab.set_default_index(zh_vocab['<unk>'])
  29. return en_vocab, zh_vocab

机器翻译任务的预处理是确保模型能够有效学习源语言到目标语言映射的关键步骤。预处理阶段通常包括多个步骤,旨在清理、标准化和转换数据,使之适合模型训练。以下是机器翻译任务预处理中常见的几个处理步骤:

  • 清洗和规范化数据

  • 分词

  • 构建词汇表和词向量

  • 序列截断和填

  • 添加特殊标记

  • 数据增强

  • 数据分割

3.3 翻译处理模块

  1. class TranslationDataset(Dataset):
  2. def __init__(self, data: List[Tuple[List[str], List[str]]], en_vocab, zh_vocab):
  3. self.data = data
  4. self.en_vocab = en_vocab
  5. self.zh_vocab = zh_vocab
  6. def __len__(self):
  7. return len(self.data)
  8. def __getitem__(self, idx):
  9. en, zh = self.data[idx]
  10. en_indices = [self.en_vocab['<bos>']] + [self.en_vocab[token] for token in en] + [self.en_vocab['<eos>']]
  11. zh_indices = [self.zh_vocab['<bos>']] + [self.zh_vocab[token] for token in zh] + [self.zh_vocab['<eos>']]
  12. return en_indices, zh_indices

3.4 collate-fn函数

在dataloader按照batch进行取数据的时候, 是取出大小等同于batch size的index列表; 然后将列表中的index输入到dataset的getitem()函数中,取出该index对应的数据; 最后, 对每个index对应的数据进行堆叠, 就形成了一个batch的数据.collate-fn函数就是手动将抽取出的样本堆叠起来的函数。

collate_fn函数是实例化dataloader的时候, 以函数形式传递给loader.

既然是collate_fn是以函数作为参数进行传递, 那么其一定有默认参数. 这个默认参数就是getitem函数返回的数据项的batch形成的列表.

collate_fn的用处:
  • 自定义数据堆叠过程
  • 自定义batch数据的输出形式
collate_fn的使用
  • 定义一个以data为输入的函数
  • 注意, 输入输出分别域getitem函数和loader调用时对应
  1. def collate_fn(batch):
  2. en_batch, zh_batch = [], []
  3. for en_item, zh_item in batch:
  4. if en_item and zh_item: # 确保两个序列都不为空
  5. # print("都不为空")
  6. en_batch.append(torch.tensor(en_item))
  7. zh_batch.append(torch.tensor(zh_item))
  8. else:
  9. print("存在为空")
  10. if not en_batch or not zh_batch: # 如果整个批次为空,返回空张量
  11. return torch.tensor([]), torch.tensor([])
  12. # src_sequences = [item[0] for item in batch]
  13. # trg_sequences = [item[1] for item in batch]
  14. en_batch = nn.utils.rnn.pad_sequence(en_batch, batch_first=True, padding_value=en_vocab['<pad>'])
  15. zh_batch = nn.utils.rnn.pad_sequence(zh_batch, batch_first=True, padding_value=zh_vocab['<pad>'])
  16. # en_batch = pad_sequence(en_batch, batch_first=True, padding_value=en_vocab['<pad>'])
  17. # zh_batch = pad_sequence(zh_batch, batch_first=True, padding_value=zh_vocab['<pad>'])
  18. return en_batch, zh_batch

3.5 数据加载函数 

  1. # 数据加载函数
  2. def load_data(train_path: str, dev_en_path: str, dev_zh_path: str, test_en_path: str):
  3. # 读取训练数据
  4. train_data = read_data(train_path)
  5. train_en, train_zh = zip(*(line.split('\t') for line in train_data))
  6. # 读取开发集和测试集
  7. dev_en = read_data(dev_en_path)
  8. dev_zh = read_data(dev_zh_path)
  9. test_en = read_data(test_en_path)
  10. # 预处理数据
  11. train_processed = preprocess_data(train_en, train_zh)
  12. dev_processed = preprocess_data(dev_en, dev_zh)
  13. test_processed = [(en_tokenizer(en.lower())[:MAX_LENGTH], []) for en in test_en if en.strip()]
  14. # 构建词汇表
  15. global en_vocab, zh_vocab
  16. en_vocab, zh_vocab = build_vocab(train_processed)
  17. # 创建数据集
  18. train_dataset = TranslationDataset(train_processed, en_vocab, zh_vocab)
  19. dev_dataset = TranslationDataset(dev_processed, en_vocab, zh_vocab)
  20. test_dataset = TranslationDataset(test_processed, en_vocab, zh_vocab)
  21. from torch.utils.data import Subset
  22. # 假设你有10000个样本,你只想用前1000个样本进行测试
  23. indices = list(range(N))
  24. train_dataset = Subset(train_dataset, indices)
  25. # 创建数据加载器
  26. train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, collate_fn=collate_fn, drop_last=True)
  27. dev_loader = DataLoader(dev_dataset, batch_size=BATCH_SIZE, collate_fn=collate_fn, drop_last=True)
  28. test_loader = DataLoader(test_dataset, batch_size=1, collate_fn=collate_fn, drop_last=True)
  29. return train_loader, dev_loader, test_loader, en_vocab, zh_vocab

3.6  定义位置编码类

  1. class PositionalEncoding(nn.Module):
  2. def __init__(self, d_model, dropout=0.1, max_len=5000):
  3. super(PositionalEncoding, self).__init__()
  4. self.dropout = nn.Dropout(p=dropout)
  5. pe = torch.zeros(max_len, d_model)
  6. position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
  7. div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
  8. pe[:, 0::2] = torch.sin(position * div_term)
  9. pe[:, 1::2] = torch.cos(position * div_term)
  10. pe = pe.unsqueeze(0).transpose(0, 1)
  11. self.register_buffer('pe', pe)
  12. def forward(self, x):
  13. x = x + self.pe[:x.size(0), :]
  14. return self. Dropout(x)

3.7 重点来了:transfomer模型构建部分

  1. class TransformerModel(nn.Module):
  2. def __init__(self, src_vocab, tgt_vocab, d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward, dropout):
  3. super(TransformerModel, self).__init__()
  4. self.transformer = nn.Transformer(d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward, dropout)
  5. self.src_embedding = nn.Embedding(len(src_vocab), d_model)
  6. self.tgt_embedding = nn.Embedding(len(tgt_vocab), d_model)
  7. self.positional_encoding = PositionalEncoding(d_model, dropout)
  8. self.fc_out = nn.Linear(d_model, len(tgt_vocab))
  9. self.src_vocab = src_vocab
  10. self.tgt_vocab = tgt_vocab
  11. self.d_model = d_model
  12. def forward(self, src, tgt):
  13. # 调整src和tgt的维度
  14. src = src.transpose(0, 1) # (seq_len, batch_size)
  15. tgt = tgt.transpose(0, 1) # (seq_len, batch_size)
  16. src_mask = self.transformer.generate_square_subsequent_mask(src.size(0)).to(src.device)
  17. tgt_mask = self.transformer.generate_square_subsequent_mask(tgt.size(0)).to(tgt.device)
  18. src_padding_mask = (src == self.src_vocab['<pad>']).transpose(0, 1)
  19. tgt_padding_mask = (tgt == self.tgt_vocab['<pad>']).transpose(0, 1)
  20. src_embedded = self.positional_encoding(self.src_embedding(src) * math.sqrt(self.d_model))
  21. tgt_embedded = self.positional_encoding(self.tgt_embedding(tgt) * math.sqrt(self.d_model))
  22. output = self.transformer(src_embedded, tgt_embedded,
  23. src_mask, tgt_mask, None, src_padding_mask, tgt_padding_mask, src_padding_mask)
  24. return self.fc_out(output).transpose(0, 1)
然后定义主函数调用上面的TransformerModel这个classmodel = TransformerModel(src_vocab, tgt_vocab, d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward, dropout)
  1. # 然后在主函数里定义 Transformer 模型调用:
  2. def initialize_model(src_vocab, tgt_vocab, d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6, dim_feedforward=2048, dropout=0.1):
  3. model = TransformerModel(src_vocab, tgt_vocab, d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward, dropout)
  4. return model

3.8 模型训练

3.8.1 定义优化器函数

自定义学习率衰减函数学习率Lr ,这里刚开始训练初始定义为0.001

  1. # 定义优化器
  2. def initialize_optimizer(model, learning_rate=0.001):
  3. return optim.Adam(model.parameters(), lr=learning_rate))

3.8.2 定义运行时间函数

查看每epoch所花的时间 

  1. # 运行时间
  2. def epoch_time(start_time, end_time):
  3. elapsed_time = end_time - start_time
  4. elapsed_mins = int(elapsed_time / 60)
  5. elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
  6. return elapsed_mins, elapsed_secs

3.8.3 定义训练函数

  1. def train(model, iterator, optimizer, criterion, clip):
  2. model.train()
  3. epoch_loss = 0
  4. for i, batch in enumerate(iterator):
  5. src, tgt = batch
  6. if src.numel() == 0 or tgt.numel() == 0:
  7. continue
  8. src, tgt = src.to(DEVICE), tgt.to(DEVICE)
  9. optimizer.zero_grad()
  10. output = model(src, tgt[:, :-1])
  11. output_dim = output.shape[-1]
  12. output = output.contiguous().view(-1, output_dim)
  13. tgt = tgt[:, 1:].contiguous().view(-1)
  14. loss = criterion(output, tgt)
  15. loss.backward()(model.parameters(), clip)
  16. optimizer.step()
  17. epoch_loss += loss.item()
  18. return epoch_loss / len(iterator)
  19. def evaluate(model, iterator, criterion):
  20. model.eval()
  21. epoch_loss = 0
  22. with torch.no_grad():
  23. for i, batch in enumerate(iterator):
  24. src, tgt = batch
  25. if src.numel() == 0 or tgt.numel() == 0:
  26. continue
  27. src, tgt = src.to(DEVICE), tgt.to(DEVICE)
  28. output = model(src, tgt[:, :-1])
  29. output_dim = output.shape[-1]
  30. output = output.contiguous().view(-1, output_dim)
  31. tgt = tgt[:, 1:].contiguous().view(-1)
  32. loss = criterion(output, tgt)
  33. epoch_loss += loss.item()
  34. return epoch_loss / len(iterator)
  35. clip_grad_norm_

3.8.4 定义翻译句子函数

  1. def translate_sentence(src_indexes, src_vocab, tgt_vocab, model, device, max_length=50):
  2. model.eval()
  3. src_tensor = src_indexes.unsqueeze(0).to(device) # 添加批次维度
  4. with torch.no_grad():
  5. encoder_outputs = model.transformer.encoder(model.positional_encoding(model.src_embedding(src_tensor) * math.sqrt(model.d_model)))
  6. trg_indexes = [tgt_vocab['<bos>']]
  7. for i in range(max_length):
  8. trg_tensor = torch.LongTensor(trg_indexes).unsqueeze(0).to(device)
  9. with torch.no_grad():
  10. output = model(src_tensor, trg_tensor)
  11. pred_token = output.argmax(2)[:, -1].item()
  12. trg_indexes.append(pred_token)
  13. if pred_token == tgt_vocab['<eos>']:
  14. break
  15. trg_tokens = [tgt_vocab.get_itos()[i] for i in trg_indexes]
  16. return trg_tokens[1:-1] # 移除<bos>和<eos>标记

3.8.5 计算BELU分数

什么是 BLEU-4 ?

BLEU,全称为Bilingual Evaluation Understudy(双语评估替换),是一种对生成语句进行评估的指标。BLEU 评分是由Kishore Papineni等人2002年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。

在机器翻译领域,BLEU(Bilingual Evaluation Understudy)是一种常用的自动评价指标,用于衡量计算机生成的翻译与一组参考译文之间的相似度。这个指标特别关注 n-grams(连续的n个词)的精确匹配,可以被认为是对翻译准确性和流利度的一种统计估计。计算BLEU分数时,首先会统计生成文本中n-grams的频率,然后将这些频率与参考文本中的n-grams进行比较。如果生成的翻译中包含的n-grams与参考译文中出现的相同,则认为是匹配的。最终的BLEU分数是一个介于0到1之间的数值,其中1表示与参考译文完美匹配,而0则表示完全没有匹配。

BLEU-4 特别指的是在计算时考虑四元组(即连续四个词)的匹配情况。

BLEU 评估指标的特点:

  • 优点:计算速度快、计算成本低、容易理解、与具体语言无关、和人类给的评估高度相关。

  • 缺点:不考虑语言表达(语法)上的准确性;测评精度会受常用词的干扰;短译句的测评精度有时会较高;没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定。

除了翻译之外,BLEU评分结合深度学习方法可应用于其他的语言生成问题,例如:语言生成、图片标题生成、文本摘要、语音识别。

  1. def calculate_bleu(dev_loader, src_vocab, tgt_vocab, model, device):
  2. model.eval()
  3. translations = []
  4. references = []
  5. with torch.no_grad():
  6. for src, tgt in dev_loader:
  7. src = src.to(device)
  8. for sentence in src:
  9. translated = translate_sentence(sentence, src_vocab, tgt_vocab, model, device)
  10. translations.append(' '.join(translated))
  11. for reference in tgt:
  12. ref_tokens = [tgt_vocab.get_itos()[idx] for idx in reference if idx not in [tgt_vocab['<bos>'], tgt_vocab['<eos>'], tgt_vocab['<pad>']]]
  13. references.append([' '.join(ref_tokens)])
  14. bleu = sacrebleu.corpus_bleu(translations, references)
  15. return bleu.score

 3.8.6 主训练循环函数

  1. # 主训练循环
  2. def train_model(model, train_iterator, valid_iterator, optimizer, criterion, N_EPOCHS=10, CLIP=1, save_path = '../model/best-model_transformer.pt'):
  3. best_valid_loss = float('inf')
  4. for epoch in range(N_EPOCHS):
  5. start_time = time.time()
  6. #print(f"Starting Epoch {epoch + 1}")
  7. train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
  8. valid_loss = evaluate(model, valid_iterator, criterion)
  9. end_time = time.time()
  10. epoch_mins, epoch_secs = epoch_time(start_time, end_time)
  11. if valid_loss < best_valid_loss:
  12. best_valid_loss = valid_loss
  13. torch.save(model.state_dict(), save_path)
  14. print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
  15. print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
  16. print(f'\t Val. Loss: {valid_loss:.3f} | Val. PPL: {math.exp(valid_loss):7.3f}')

定义常量,句子最大长度,以及采样训练集大小,之前N大小仅为20,采样量过少,我这里将所有训练集都丢进去训练 

  1. # 定义常量
  2. MAX_LENGTH = 100 # 最大句子长度
  3. BATCH_SIZE = 32
  4. DEVICE = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
  5. N = 148363 # 采样训练集的数量,最多148363
  6. train_path = './dataset/train.txt'
  7. dev_en_path = './dataset/dev_en.txt'
  8. dev_zh_path = './dataset/dev_zh.txt'
  9. test_en_path = './dataset/test_en.txt'
  10. train_loader, dev_loader, test_loader, en_vocab, zh_vocab = load_data(
  11. train_path, dev_en_path, dev_zh_path, test_en_path
  12. )
  13. print(f"英语词汇表大小: {len(en_vocab)}")
  14. print(f"中文词汇表大小: {len(zh_vocab)}")
  15. print(f"训练集大小: {len(train_loader.dataset)}")
  16. print(f"开发集大小: {len(dev_loader.dataset)}")
  17. print(f"测试集大小: {len(test_loader.dataset)}")

 3.8.7 定义主函数

  1. # 主函数
  2. if __name__ == '__main__':
  3. # 模型参数
  4. D_MODEL = 256
  5. NHEAD = 8
  6. NUM_ENCODER_LAYERS = 3
  7. NUM_DECODER_LAYERS = 3
  8. DIM_FEEDFORWARD = 512
  9. DROPOUT = 0.1
  10. N_EPOCHS = 5
  11. CLIP = 1
  12. # 初始化模型
  13. model = initialize_model(en_vocab, zh_vocab, D_MODEL, NHEAD, NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS, DIM_FEEDFORWARD, DROPOUT).to(DEVICE)
  14. print(f'The model has {sum(p.numel() for p in model.parameters() if p.requires_grad):,} trainable parameters')
  15. # 定义损失函数
  16. criterion = nn.CrossEntropyLoss(ignore_index=zh_vocab['<pad>'])
  17. # 初始化优化器
  18. optimizer = optim.Adam(model.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)
  19. # 训练模型
  20. save_path = './model/best-model_transformer.pt'
  21. train_model(model, train_loader, dev_loader, optimizer, criterion, N_EPOCHS, CLIP, save_path=save_path)
  22. print(f"训练完成!模型已保存到:{save_path}")

 运行结果如下:

3.9 模型测试

 3.9.1 在开发集上评价

  1. model = initialize_model(en_vocab, zh_vocab, D_MODEL, NHEAD, NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS, DIM_FEEDFORWARD, DROPOUT).to(DEVICE)
  2. # # 加载最佳模型
  3. model.load_state_dict(torch.load('../model/best-model_transformer.pt'))
  4. # # 计算BLEU分数
  5. bleu_score = calculate_bleu(dev_loader, en_vocab, zh_vocab, model, DEVICE)
  6. print(f'BLEU score = {bleu_score*100:.2f}')

3.9.2 对测试集进行翻译 

  1. # 加载最佳模型
  2. model.load_state_dict(torch.load('./model/best-model_transformer.pt'))
  3. save_dir = './results/submit_task3.txt'
  4. with open(save_dir, 'w') as f:
  5. translated_sentences = []
  6. for batch in test_loader: # 遍历所有数据
  7. src, _ = batch
  8. src = src.to(DEVICE)
  9. translated = translate_sentence(src[0], en_vocab, zh_vocab, model, DEVICE) #翻译结果
  10. results = "".join(translated)
  11. f.write(results + '\n') # 将结果写入文件
  12. print(f"翻译完成,结果已保存到{save_dir}")

输出结果:

 至此任务完成,接下来就是提交结果至赛事,打开已经报名的链接。

 赛事链接:2024 iFLYTEK AI开发者大赛-讯飞开放平台

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/975025
推荐阅读
相关标签
  

闽ICP备14008679号