赞
踩
下面是一些参数高效的微调大模型方法:
Adapter作为一个插件加入到大模型内,微调下游任务时,固定大模型参数,只训练Adapter参数。
LoRA名为大语言模型的低阶适应,最初设计用于微调LLM,但却在文生图领域大放异彩,并逐渐被人数知。其思想跟ResNet非常相似,通过在大模型旁侧添加一路分支,冻结大模型参数,学习分支参数(也即残差),达到微调效果。
如果 Δ W \Delta W ΔW 跟 W 0 W_0 W0 一样,也是 R d × d \mathbb{R}^{d \times d} Rd×d,那么残差学习同样需要训练大量的参数,并没有达到参数高效的目标。而在我们学习中,常用的减少矩阵参数大小方法就是矩阵分解,因此作者对输入先降采样,再上采样,实现输入与输出维度一致。
该方法主要用来做NLG任务(Table-to-text Generation、 Summarization),在输入token之前构造一段任务相关的virtual tokens作为Prefix,然后训练的时候只更新Prefix部分的参数,而大模型参数冻结。
Prefix tokens初始化如下:
需要注意的是,在低资源场景下,用任务相关的单词来初始化prefix tokens,效果更好:
Prompt-Tunning算是prefix-Tunning的简化版本,面向NLU任务,进行了更全面的效果对比,并且在大模型上成功打平了LM微调的效果。
P-tuning主要用GPT来做NLU任务,达到甚至超过BERT同等水平。
v1做了如下两点优化:
v2主要是在大模型的每一层加入可训练prompts:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。