赞
踩
©PaperWeekly 原创 · 作者|苏剑林
单位|追一科技
研究方向|NLP、神经网络
在之前的文章必须要 GPT-3 吗?不,BERT 的 MLM 模型也能小样本学习中,我们介绍了一种名为 Pattern-Exploiting Training(PET) 的方法,它通过人工构建的模版与 BERT 的 MLM 模型结合,能够起到非常好的零样本、小样本乃至半监督学习效果,而且该思路比较优雅漂亮,因为它将预训练任务和下游任务统一起来了。然而,人工构建这样的模版有时候也是比较困难的,而且不同的模版效果差别也很大,如果能够通过少量样本来自动构建模版,也是非常有价值的。
最近 Arxiv 上的论文《GPT Understands, Too》提出了名为 P-tuning 的方法,成功地实现了模版的自动构建。不仅如此,借助 P-tuning,GPT 在 SuperGLUE 上的成绩首次超过了同等级别的 BERT 模型,这颠覆了一直以来“GPT 不擅长 NLU”的结论,也是该论文命名的缘由。
论文标题:
GPT Understands, Too
论文链接:
https://arxiv.org/abs/2103.10385
代码链接:
https://github.com/THUDM/P-tuning
什么是模版
所谓 PET,主要的思想是借助由自然语言构成的模版(英文常称 Pattern 或 Prompt),将下游任务也转化为一个完形填空任务,这样就可以用 BERT 的 MLM 模型来进行预测了。比如下图中通过条件前缀来实现情感分类和主题分类的例子:
▲ 通过特定模版将情感分类转换为MLM任务
▲ 通过特定模版将新闻分类转换为MLM任务
当然,这种方案也不是只有 MLM 模型可行,用 GPT 这样的单向语言模型(LM)其实也很简单:
▲ 通过特定模版将情感分类转换为LM任务
▲ 通过特定模版将新闻分类转换为LM任务
不过由于语言模型是从左往右解码的,因此预测部分只能放在句末了(但还可以往补充前缀说明,只不过预测部分放在最后)。
某种意义上来说,这些模版属于语言模型的“探针”,我们可以通过模版来抽取语言模型的特定知识,从而做到不错的零样本效果,而配合少量标注样本,可以进一步提升效果,这些在必须要 GPT-3吗?不,BERT 的 MLM 模型也能小样本学习中已经比较详细讨论过了。
然而,前面已经说了,对于某些任务而言,人工构建模版并不是那么容易的事情,模型的优劣我们也不好把握,而不同模型之间的效果差别可能很大,在这种情况下,人工标注一些样本可能比构建模版还要轻松得多。所以,如何根据已有的标注样本来自动构建模版,便成了一个值得研究的问题了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。