赞
踩
BERT(Bidirectional Encoder Representations from Transformer)是有监督任务的无监督训练,不需要标签信息。BERT证明了双向模型对文本特征表示的重要性,并且证明了预训练模型能够消除很多繁重的任务相关的网络结构。
如下图所示,Bert的模型架构基于Encoder,GPT基于Decoder,而ELMo基于两个单向的LSTM模型。
BERT的核心在于通过学习分类任务NSP和词的匹配Mask LM等两个任务完成预训练,然后根据下游任务的不同,如SQuAD、NER实体识别或MNLI进行Fine-Tuning微调。BERT跨越不同任务的统一架构,使得预训练架构与最终下游架构之间的差异很小。
Fine-Tuning的任务如下图所示:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。