赞
踩
BERT: 近 3 年 NLP 最火
CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型
NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能
BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新?
01:34
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
pre-training: 在一个大的数据集上训练好一个模型 pre-training,模型的主要任务是用在其它任务 training 上。
deep bidirectional transformers: 深的双向 transformers
language understanding: 更广义,transformer 主要用在机器翻译 MT
BERT: 用深的、双向的、transformer 来做预训练,用来做语言理解的任务。
作者:Google AI Language,写作时间短(几个月),大佬大佬
03:14
新的语言表征模型 BERT: Bidirectional Encoder Representations from Transformers,基于 ELMo
Transformers 模型的双向编码表示
与 ELMo 和 GPT 不同,BERT 从无标注的文本中(jointly conditioning 联合左右的上下文信息)预训练得到 无标注文本的 deep bidirectional representations
pre-trained BERT 可以通过加一个输出层来 fine-tune,在很多任务(问答、推理)有 SOTA 效果,而不需要对特定任务的做架构上的修改。
GPT unidirectional,使用左边的上下文信息 预测未来
BERT bidirectional,使用左右侧的上下文信息
ELMo based on RNNs, down-stream 任务需要调整一点点架构
BERT based on Transformers, down-stream 任务只需要调整最上层。
GPT, down-stream 任务 只需要改最上层。
摘要第一段:和哪两篇工作相关,区别是什么?
BERT 是在 GPT 和 ELMo 的基础上的改动。
摘要第二段:BERT 的好处
simple and empirically powerful, 11 NLP 任务的SOTA, 绝对精度 + 相对精度(比别人好多少)
摘要写法:
第一段:我和另外 2 篇相关工作的区别,改进在哪里?
第二段:我的结果特别好,好在什么地方?
Note: BERT 论文写作好 --> 经典
工作质量:创新性、效果好 --> 经典
08:02
导言第一段:本篇论文关注的研究方向的一些上下文关系
Language model pre-training 可以提升 NLP 任务的性能
NLP任务分两类:sentence-level tasks 句子情绪识别、两个句子的关系; token-level tasks NER (人名、街道名) 需要 fine-grained output
NLP 预训练很早之前存在,BERT 使 NLP 预训练 出圈了。
导言第二段:摘要第一段的扩充
pre-trained language representations 两类策略:
基于特征的 ELMo (构建和每一个下游任务相关的 NN 架构;训练好的特征(作为额外的特征) 和 输入 一起放进模型)
基于微调参数的 GPT
所有的权重参数根据新的数据集进行微调。
介绍别人工作的目的:铺垫自己方法的好
ELMo 和 GPT 预训练时 使用 unidirectional langugage model,使用相同的目标函数
语言模型是单向的、预测未来。不是给第 一句、第三句,预测第二句
导言第三段:
当前技术的局限性:标准语言模型是 unidirectional 单向的,限制了模型架构的选择。
GPT 从左到右的架构,只能将输入的一个句子从左看到右。句子情感分类任务:从左看到右、从右看到左 都应该是合法的。
token-level tasks:问答 qa 看完整个句子选答案,不是从左往右一步一步看。
如果能 incorporate context from both directions 看两方向的信息,能提升 任务性能。
相关工作的局限性,+ 解决局限性的想法 -- > 导言第四段: 如何解决?
BERT 通过 MLM 带掩码的语言模型 作为预训练的目标,来减轻 语言模型的单向约束。inspired by the Close task 1953
MLM 带掩码的语言模型做什么呢?
每次随机选输入的词源 tokens, 然后 mask 它们,目标函数是预测被 masked 的词;类似挖空填词、完形填空。
MLM 和 standard language model (只看左边的信息)有什么区别?
MLM 可以看 左右的上下文信息, pre-train deep bidirectional transformer 的基础。
BERT 除了 MLM 还有什么?
NSP: next sentence prediction
判断两个句子是随机采样的 or 原文相邻,学习 sentence-level 的信息。
文章 3点 贡献:
14:25
1 bidirectional 双向信息的重要性
GPT 只用了 unidirectional 信息;另外 Peter 2018 把从左看到右 和 从右看到左的模型独立训练 + shallow concatenation 拼在一起;BERT 在 bidirectional pre-training 的应用更好
2 BERT 首个 微调模型,在 sentence-level and token-level task效果好
好的预训练模型,不用对特定任务做一些模型架构的改动
3 BERT 开源,随便用。
15:14
近期实验表明,非监督的预训练模型很好,low-resource 任务也能享受 benefit from 深的神经网络。
本文贡献:拓展前任的结果到 deep bidirectional architectures,使同样的预训练模型能够处理大量的 NLP 任务
本文故事:
2个相关工作:ELMo 用了 bidirectional 信息,但架构 RNN 老;GPT 架构 Transformer 新,但只用了 unidirectional 信息。
BERT = ELMo 的 bidirectional 信息 + GPT 的新架构 transformer
How?
Language model 任务:不是预测未来,而是完形填空。
写作:两个算法的结合,主要工作 -- 证明 双向有用
A + B 缝合工作 or C 技术解决 D 领域的问题,不要觉得想法小、不值得写出来;简单朴实的写出来。简单好用 说不定会出圈
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。