赞
踩
作者:禅与计算机程序设计艺术
近年来深度学习技术的快速发展催生了基于注意力机制(Attention Mechanism)的多种深度神经网络结构被提出,其中最具代表性的是Transformer模型。Transformer模型能够在序列数据处理上取得诸如翻译、文本摘要等极端有效的效果,并且由于其简单高效的结构设计及其自回归自注意力机制的特性,使得它在许多任务中都有着前所未有的突破性成绩。但是,Transformer模型虽然获得了卓越的性能,但也存在着一些缺陷,例如模型大小限制、计算资源占用大、需要大量训练数据等。因此,为了克服这些问题,另一种预训练语言模型BERT应运而生。 BERT模型相比于Transformer模型的最大特点就是采用词嵌入(Word Embedding)方法而不是通过循环神经网络建模字符级信息。这一点使得BERT具有更好的鲁棒性,并可用于各种任务。具体来说,BERT模型包括两个主体,即BERT-Base和BERT-Large,分别对应于两种不同规模的模型参数。BERT的训练过程分为两步,首先进行Mask Language Modeling (MLM),利用随机噪声对输入序列进行修改,期望模型能够从中学习到潜在的模式。其次,再进行Next Sentence Prediction (NSP),该任务旨在判断输入序列中的句子是否连贯,目的是消除单个句子的影响。训练完成后,将两个模型的参数联合作为一个整体,得到最终的预训练模型。 另外,为了解决语料库的稀疏性问题,最近Google还推出了SentencePiece工具来对文本进行切分。与BERT一样,SentencePiece也是一种预训练模型,它的目标是在海量文本数据中发现共同的词表,然后基于词表生成词向量。这样就可以大大减少训练数据的数量&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。