NLP文本数据增强热门技术_数据增强 mlm

作者：Monodyee | 2024-06-11 15:56:49

踩

数据增强 mlm

NLP文本数据增强热门技术

背景

背景

CV中有很多简单实用的数据增强方式，如旋转图像、调整RGB等。这些方法在保证图像特征的基础上增加了训练量，进而能够提升模型的表现效果。但在NLP中这些方法就不再适用，文本上少量的调整都可能改变整体上下文语义信息。
《A Visual Survey of Data Augmentation in NLP》（本文主要参考文章）中这样阐述这种情况：

CV和NLP数据增强对比

word替换

同义词替换

基于公开的知识库，随机选择当前句子中的单词，应用同义词库将其替换为其同义词。比如，使用WordNet数据库，将「awesome」替换为「amazing」。
同义词替换
使用该方法扩充数据集的论文如：

词向量替换

采用预先训练好的单词嵌入，如Word2Vec、GloVe、FastText、Sent2Vec，并使用嵌入空间中最近的相邻单词替换句子中的某些单词。（个人认为用bert微调后的向量表现更佳）
词向量实例
因为词向量可将词汇映射到同一个语义空间，在具体应用中，我们可以通过临近词替换当前词的方式，随机替换单词进而增加训练数据。
使用该方法的论文如：

TinyBERT: Distilling BERT for Natural Language Understanding

另外，也可以调用api接口，来获取词向量和每个词的临近词向量。可以导入预训练好的词向量，也可以自行训练（自行训练需要构建个人语料集，分词后feed到词向量模型，经过训练后再计算相似度）。

#导入预训练好的Glove词向量
import gensim.downloader as api

info = api.info()  # show info about available models/datasets
model = api.load("glove-twitter-25")  # download the model and return as object ready for use
model.most_similar("cat")1
2
3
4
5

#导入预训练好的word2vec词向量
from gensim.models.word2vec import Word2Vec
import gensim.downloader as api

corpus = api.load('text8')  # download the corpus and return it opened as an iterable
model = Word2Vec(corpus)  # train a model from the corpus
model.most_similar("car")1
2
3
4
5
6