赞
踩
自从Bert被提出来后,后续的研究者大多基于bert进行改造,提升预训练语言模型性能,从而提高下游任务的性能。比如ERINE、BERT_WWM、MASS、MT-DNN、RoBERT等等。从GLUE榜上我们可以看到,似乎现在的语言模型有越来越大的趋势,虽然我们的训练资源也是从GPU单卡到GPU多卡,到现在TPU,但不是每个公司都这么有钱,特别对个人,有可能就是一块卡,怎么样在资源有限的情况下,玩起来这些高大上的模型了?我们知道bert的base版本12层,参数量接近110M,这样大的模型在线上部署的时候效果是怎么样的?下表是在linux环境下基于GTX 1080运行结果。
| 环境 | 序列长度 | 请求次数 | 总时间(s) | 平均耗时(ms) |
|---|---|---|---|---|
| GPU+checkpoint | 128 | 10000 | 135.6 | 13.56 |
| GPU+checkpoint | 12 | 1000 | 10.3 | 10.3 |
| CPU+checkpoint | 128 | 1000 | 212 | 212 |
| CPU+checkpoint | 12 | 1000 | 83 | 83 |
| CPU+tfserving | 128 | 1000 | 351 | 351 |
Google 201909发表
Bert在2018一经提出,提高了很多nlp任务的baseline,但是Bert模型参数量大,在推断资源有限的情况下,我们应该怎么样用bert这种好的预训练模型。为了解决问题,本文提出了两种参数简化的方法,加速Bert的预训练和推断;并且我们提出了一个新的自监督的loss函数,SOP学习到句子间的内部特征。我们提出的模型,参数量更小,并且在GLUE,RACE等NLP 任务上达到最佳性能。
BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,这是真正基于self attention实现双向。模型的主要创新点都在预训练模型上,即用了Masked LM和Next Sentence Prediction(NSP),两种loss直接相加,优化的话可以加权相加,两种方法分别捕捉词语和句子级别的representation。
Bert一经提出,迅速火遍NLP,GLUE毫无悬念获得第一名,高于基于ELMO,gpt等语言模型的一大截,一时间打开了迁移学习两阶段的大门,第一步基于无监督的语料训练自己的MLM,然后基于自己的一些数据进行finetune,从而获得很好的效果。
本文提出两种模型参数缩减的方法,具体如下:
我们知道原始的Bert预训练的loss由两个任务组成,maskLM和NSP(Next Sentence Prediction),maskLM通过预测mask掉的词语来实现真正的双向transformer,NSP类似于语义匹配的任务,预测句子A和句子B是否匹配,是一个二分类的任务,其中正样本从原始语料获得,负样本随机负采样。NSP任务可以提高下游任务的性能,比如句子对的关系预测。但是也有论文指出NSP任务其实可以去掉,反而可以提高性能,比如RoBert。
本文以为NSP任务相对于MLM任务太简单了,学习到的东西也有限,因此本文提出了一个新的loss,sentence-order prediction(SOP),SOP关注于句子间的连贯性,而非句子间的匹配性。SOP正样本也是从原始语料中获得,负样本是原始语料的句子A和句子B交换顺序。举个例子说明NSP和SOP的区别,原始语料句子 A和B, NSP任务正样本是 AB,负样本是AC;SOP任务正样本是AB,负样本是BA。可以看出SOP任务更加难,学习到的东西更多了(句子内部排序)。
本文提出了2种参数压缩的方法以及1个新的loss,下面主要对这几种方法进行实验,实验结果如下:
下图2展示了BERT-large和ALBERT-large两个模型的输入和输出embedding的L2以及余弦距离,我们可以看出ALBERT模型的距离比BERT模型
更层距离更加平滑,这说明权重共享有助于稳定网络的参数。
其中BERT和ALBERT模型的参数配置如下,我们可以看到当减小embedding的维度以及使用了参数共享的方法,模型的参数量大大减小。
Bert和ALBert的模型性能比较如下,我们可以看到总体来说,ALBERT的性能优于Bert,并且参数量较小接近5倍,性能也是最优的。
几个思考问题如下:
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。