当前位置:   article > 正文

BERT 论文逐段精读【论文精读】-跟李沐学AI_bert论文

bert论文

 视频链接:BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

BERT: 近 3 年 NLP 最火

CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型

NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能

BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新?

1标题 + 作者


01:34


BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

pre-training: 在一个大的数据集上训练好一个模型 pre-training,模型的主要任务是用在其它任务 training 上。

deep bidirectional transformers: 深的双向 transformers

language understanding: 更广义,transformer 主要用在机器翻译 MT

BERT: 用深的、双向的、transformer 来做预训练,用来做语言理解的任务。

作者:Google AI Language,写作时间短(几个月),大佬大佬

2摘要


03:14


新的语言表征模型 BERT: Bidirectional Encoder Representations from Transformers,基于 ELMo

Transformers 模型的双向编码表示

与 ELMo 和 GPT 不同,BERT 从无标注的文本中(jointly conditioning 联合左右的上下文信息)预训练得到 无标注文本的 deep bidirectional representations

pre-trained BERT 可以通过加一个输出层来 fine-tune,在很多任务(问答、推理)有 SOTA 效果,而不需要对特定任务的做架构上的修改。

GPT unidirectional,使用左边的上下文信息 预测未来

BERT bidirectional,使用左右侧的上下文信息

ELMo based on RNNs, down-stream 任务需要调整一点点架构

BERT based on Transformers, down-stream 任务只需要调整最上层。

GPT, down-stream 任务 只需要改最上层。

摘要第一段:和哪两篇工作相关,区别是什么?

BERT 是在 GPT 和 ELMo 的基础上的改动。

摘要第二段:BERT 的好处

simple and empirically powerful, 11 NLP 任务的SOTA, 绝对精度 + 相对精度(比别人好多少)

摘要写法:

第一段:我和另外 2 篇相关工作的区别,改进在哪里?

第二段:我的结果特别好,好在什么地方?

Note: BERT 论文写作好 --> 经典 

工作质量:创新性、效果好 -->  经典 

3导言


08:02


导言第一段:本篇论文关注的研究方向的一些上下文关系

Language model pre-training 可以提升 NLP 任务的性能 

NLP任务分两类:sentence-level tasks 句子情绪识别、两个句子的关系; token-level tasks NER (人名、街道名) 需要 fine-grained output

NLP 预训练很早之前存在,BERT 使 NLP 预训练 出圈了。

导言第二段:摘要第一段的扩充

pre-trained language representations 两类策略:

基于特征的 ELMo (构建和每一个下游任务相关的 NN 架构;训练好的特征(作为额外的特征) 和 输入 一起放进模型)

基于微调参数的 GPT

所有的权重参数根据新的数据集进行微调。

介绍别人工作的目的:铺垫自己方法的好

ELMo 和 GPT 预训练时 使用 unidirectional langugage model,使用相同的目标函数

语言模型是单向的、预测未来。不是给第 一句、第三句,预测第二句

导言第三段:

当前技术的局限性:标准语言模型是 unidirectional 单向的,限制了模型架构的选择。

GPT 从左到右的架构,只能将输入的一个句子从左看到右。句子情感分类任务:从左看到右、从右看到左 都应该是合法的。

token-level tasks:问答 qa 看完整个句子选答案,不是从左往右一步一步看。

如果能 incorporate context from both directions 看两方向的信息,能提升 任务性能。

相关工作的局限性,+ 解决局限性的想法 -- > 导言第四段: 如何解决?

BERT 通过 MLM 带掩码的语言模型 作为预训练的目标,来减轻 语言模型的单向约束。inspired by the Close task 1953 

MLM 带掩码的语言模型做什么呢?

每次随机选输入的词源 tokens, 然后 mask 它们,目标函数是预测被 masked 的词;类似挖空填词、完形填空。

MLM 和 standard language model (只看左边的信息)有什么区别?

MLM 可以看 左右的上下文信息, pre-train deep bidirectional transformer 的基础。

BERT 除了 MLM 还有什么? 

NSP: next sentence prediction 

判断两个句子是随机采样的 or 原文相邻,学习 sentence-level 的信息。

文章 3点 贡献:


14:25


1  bidirectional 双向信息的重要性

GPT 只用了 unidirectional 信息;另外 Peter 2018 把从左看到右 和 从右看到左的模型独立训练 + shallow concatenation 拼在一起;BERT 在 bidirectional pre-training 的应用更好

2  BERT 首个 微调模型,在 sentence-level and token-level task效果好

好的预训练模型,不用对特定任务做一些模型架构的改动

3 BERT 开源,随便用。

4结论


15:14


近期实验表明,非监督的预训练模型很好,low-resource 任务也能享受 benefit from 深的神经网络。

本文贡献:拓展前任的结果到 deep bidirectional architectures,使同样的预训练模型能够处理大量的 NLP 任务

本文故事:

2个相关工作:ELMo 用了 bidirectional 信息,但架构 RNN 老;GPT 架构 Transformer 新,但只用了 unidirectional 信息。

BERT = ELMo 的 bidirectional 信息 + GPT 的新架构 transformer

How?

Language model 任务:不是预测未来,而是完形填空。

写作:两个算法的结合,主要工作 -- 证明 双向有用

A + B 缝合工作 or C 技术解决 D 领域的问题,不要觉得想法小、不值得写出来;简单朴实的写出来。简单好用 说不定会出圈

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/352807
推荐阅读
相关标签