花生_TL007

这个屌丝很懒，什么也没留下！

热门标签

BERT 论文逐段精读【论文精读】-跟李沐学AI_bert论文

作者：花生_TL007 | 2024-04-02 15:26:56

踩

bert论文

视频链接：BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

BERT: 近 3 年 NLP 最火

CV: 大数据集上的训练好的 NN 模型，提升 CV 任务的性能 —— ImageNet 的 CNN 模型

NLP: BERT 简化了 NLP 任务的训练，提升了 NLP 任务的性能

BERT 如何站在巨人的肩膀上的？使用了哪些 NLP 已有的技术和思想？哪些是 BERT 的创新？

1标题 + 作者

01:34

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

pre-training: 在一个大的数据集上训练好一个模型 pre-training，模型的主要任务是用在其它任务 training 上。

deep bidirectional transformers: 深的双向 transformers

language understanding: 更广义，transformer 主要用在机器翻译 MT

BERT: 用深的、双向的、transformer 来做预训练，用来做语言理解的任务。

作者：Google AI Language，写作时间短（几个月），大佬大佬

2摘要

03:14

新的语言表征模型 BERT: Bidirectional Encoder Representations from Transformers，基于 ELMo

Transformers 模型的双向编码表示

与 ELMo 和 GPT 不同，BERT 从无标注的文本中（jointly conditioning 联合左右的上下文信息）预训练得到无标注文本的 deep bidirectional representations

pre-trained BERT 可以通过加一个输出层来 fine-tune，在很多任务（问答、推理）有 SOTA 效果，而不需要对特定任务的做架构上的修改。

GPT unidirectional，使用左边的上下文信息预测未来

BERT bidirectional，使用左右侧的上下文信息

ELMo based on RNNs, down-stream 任务需要调整一点点架构

BERT based on Transformers, down-stream 任务只需要调整最上层。

GPT, down-stream 任务只需要改最上层。

摘要第一段：和哪两篇工作相关，区别是什么？

BERT 是在 GPT 和 ELMo 的基础上的改动。

摘要第二段：BERT 的好处

simple and empirically powerful, 11 NLP 任务的SOTA, 绝对精度 + 相对精度（比别人好多少）

摘要写法：

第一段：我和另外 2 篇相关工作的区别，改进在哪里？

第二段：我的结果特别好，好在什么地方？

Note: BERT 论文写作好 --> 经典

工作质量：创新性、效果好 --> 经典

3导言

08:02

导言第一段：本篇论文关注的研究方向的一些上下文关系

Language model pre-training 可以提升 NLP 任务的性能

NLP任务分两类：sentence-level tasks 句子情绪识别、两个句子的关系； token-level tasks NER (人名、街道名) 需要 fine-grained output

NLP 预训练很早之前存在，BERT 使 NLP 预训练出圈了。

导言第二段：摘要第一段的扩充

pre-trained language representations 两类策略：

基于特征的 ELMo (构建和每一个下游任务相关的 NN 架构；训练好的特征（作为额外的特征）和输入一起放进模型)

基于微调参数的 GPT

所有的权重参数根据新的数据集进行微调。

介绍别人工作的目的：铺垫自己方法的好

ELMo 和 GPT 预训练时使用 unidirectional langugage model，使用相同的目标函数

语言模型是单向的、预测未来。不是给第一句、第三句，预测第二句

导言第三段：

当前技术的局限性：标准语言模型是 unidirectional 单向的，限制了模型架构的选择。

GPT 从左到右的架构，只能将输入的一个句子从左看到右。句子情感分类任务：从左看到右、从右看到左都应该是合法的。

token-level tasks：问答 qa 看完整个句子选答案，不是从左往右一步一步看。

如果能 incorporate context from both directions 看两方向的信息，能提升任务性能。

相关工作的局限性，+ 解决局限性的想法 -- > 导言第四段：如何解决？

BERT 通过 MLM 带掩码的语言模型作为预训练的目标，来减轻语言模型的单向约束。inspired by the Close task 1953

MLM 带掩码的语言模型做什么呢？

每次随机选输入的词源 tokens, 然后 mask 它们，目标函数是预测被 masked 的词；类似挖空填词、完形填空。

MLM 和 standard language model （只看左边的信息）有什么区别？

MLM 可以看左右的上下文信息, pre-train deep bidirectional transformer 的基础。

BERT 除了 MLM 还有什么？

NSP: next sentence prediction

判断两个句子是随机采样的 or 原文相邻，学习 sentence-level 的信息。

文章 3点贡献：

14:25

1 bidirectional 双向信息的重要性

GPT 只用了 unidirectional 信息；另外 Peter 2018 把从左看到右和从右看到左的模型独立训练 + shallow concatenation 拼在一起；BERT 在 bidirectional pre-training 的应用更好

2 BERT 首个微调模型，在 sentence-level and token-level task效果好

好的预训练模型，不用对特定任务做一些模型架构的改动

3 BERT 开源，随便用。

4结论

15:14

近期实验表明，非监督的预训练模型很好，low-resource 任务也能享受 benefit from 深的神经网络。

本文贡献：拓展前任的结果到 deep bidirectional architectures，使同样的预训练模型能够处理大量的 NLP 任务

本文故事：

2个相关工作：ELMo 用了 bidirectional 信息，但架构 RNN 老；GPT 架构 Transformer 新，但只用了 unidirectional 信息。

BERT = ELMo 的 bidirectional 信息 + GPT 的新架构 transformer

How?

Language model 任务：不是预测未来，而是完形填空。

写作：两个算法的结合，主要工作 -- 证明双向有用

A + B 缝合工作 or C 技术解决 D 领域的问题，不要觉得想法小、不值得写出来；简单朴实的写出来。简单好用说不定会出圈

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/352807