赞
踩
Pre-training
),再使用少量标注语料进行微调(Fine-tuning
)来完成具体NLP任务。State-of-the-art Parameter-Efficient Fine-Tuning (SOTA PEFT)
,特指部分参数的微调方法,这种方法算力功耗比更高,也是目前最为常见的微调方法;LoRA
、Prefix Tuning
、P-Tuning
、Prompt Tuning
、AdaLoRA
等;Hugging Face
项目的库中,我们可以通过安装和调用Hugging Face的PEFT
(高效微调)库,来快速使用这些方法;RLHF: Reinforcement Learning from Human Feedback
,即基于人工反馈机制的强化学习。最早与2022年4月,由OpenAl研究团队系统总结并提出,并在GPT模型的对话类任务微调中大放异彩,被称为ChatGPT
“背后的功臣”;InstructGPT
模型,根据OpenAl相关论文说明,基于RLHF训练的InstructGPT模型,在仅拥有1.3B参数量的情况下,输出效果已经和GPT-3
175B模型媲美。这充分说明了RLHF方法的实践效果;DeepSpeedChat
库,由微软开源并维护。SFT
)——使用精选的人类回答来微调预训练的语言模型以应对各种查询;RW
);Proximal Policy Optimization(PPO)
算法,根据RW模型的奖励反馈进一步微调SFT模型。LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS (2021)
,基于低阶自适应的大语言模型微调方法;diffusion models
(扩散模型)进行微调,并在图片生成任务中表现惊艳。Prefix-Tuning: Optimizing Continuous Prompts for Generation (2021)
,基于提示词前缀优化的微调方法,来源于斯坦福大学的一种高效微调方法;Prefix Tuning
既能够在模型结构上增加一些新的灵活性,又能够在模型使用上提供一种自动的、能够改进模型表现的提示机制。The Power of Scale for Parameter-Efficient Prompt Tuning (2021)
,由谷歌提出的一种轻量级的优化方法;P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks (2022)
,来源于清华大学团队提出的高效微调方法;GLM
这种双向预训练大模型微调。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。