大模型微调方法

作者：一键难忘520 | 2024-08-14 11:52:33

踩

大模型微调方法

下面是一些参数高效的微调大模型方法：

Adapter

Adapter作为一个插件加入到大模型内，微调下游任务时，固定大模型参数，只训练Adapter参数。

LoRA名为大语言模型的低阶适应，最初设计用于微调LLM，但却在文生图领域大放异彩，并逐渐被人数知。其思想跟ResNet非常相似，通过在大模型旁侧添加一路分支，冻结大模型参数，学习分支参数（也即残差），达到微调效果。

lora

formula

如果 $\Delta W$ 跟 $W_0$ 一样，也是 $\mathbb{R}^{d \times d}$ ，那么残差学习同样需要训练大量的参数，并没有达到参数高效的目标。而在我们学习中，常用的减少矩阵参数大小方法就是矩阵分解，因此作者对输入先降采样，再上采样，实现输入与输出维度一致。

该方法主要用来做NLG任务（Table-to-text Generation、 Summarization），在输入token之前构造一段任务相关的virtual tokens作为Prefix，然后训练的时候只更新Prefix部分的参数，而大模型参数冻结。

prefix tuning

Prefix tokens初始化如下：

init

需要注意的是，在低资源场景下，用任务相关的单词来初始化prefix tokens，效果更好：

words

Prompt-Tunning算是prefix-Tunning的简化版本，面向NLU任务，进行了更全面的效果对比，并且在大模型上成功打平了LM微调的效果。

prompt tuning

ensemble

P-tuning主要用GPT来做NLU任务，达到甚至超过BERT同等水平。

v1做了如下两点优化：

考虑到预训练模型本身的embedding就比较离散了（随机初始化+梯度传回来小，最后只是小范围优化），同时prompt本身也是互相关联的，所以作者先用LSTM对prompt进行编码。
在prompt模板中，加入一些anchor tokens效果会更好。

v2主要是在大模型的每一层加入可训练prompts：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/一键难忘520/article/detail/979606