当前位置:   article > 正文

大模型SFT

大模型sft

简介

supervised fine-tuning的缩写,即有监督的微调。如应用到一个新的场景,就可以使用SFT

开发流程

  • 设计prompt
  • 选取llm模型
  • 制作数据集,子任务1k就可以了。内容要丰富。风格格式统一;尽量不加入新知识
  • SFT微调

疑问

  • SFT很难学到常识、知识。更应该关注激发模型在预训练中已学到的知识、让模型学习业务所需要的特定规则、以及输出格式稳定。
  • 数据质量很重要
  • 幻觉问题,模型一本正经的胡说八道。(通过清洗数据集、强化学习对齐、后处理等方式解决)
  • 如何选择微调算法。如Lora、P-tune、SFT等。Lora一般比较稳定。SFT Scaling law 论文表明,当数据量仅在几千条时,P-tuning是最佳选择;数据量在几千至万条之间时,Lora更为适合;而当数据量达到百万级别时,Full-tunning效果最佳。此外,使用 Full-tunning 会导致训练后的模型泛化性不如 Lora。

参考:

为什么大模型会「说胡话」?如何解决大模型的「幻觉」问题? - 平凡的回答 - 知乎
https://www.zhihu.com/question/635776684/answer/3336439291

浅谈大模型 SFT 的实践落地: 10 问 10 答 - 周星星的文章 - 知乎
https://zhuanlan.zhihu.com/p/692892489

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号