当前位置: article > 正文

大模型SFT

作者：空白诗007 | 2024-07-16 18:53:17

踩

大模型sft

supervised fine-tuning的缩写，即有监督的微调。如应用到一个新的场景，就可以使用SFT

SFT很难学到常识、知识。更应该关注激发模型在预训练中已学到的知识、让模型学习业务所需要的特定规则、以及输出格式稳定。
数据质量很重要
幻觉问题，模型一本正经的胡说八道。（通过清洗数据集、强化学习对齐、后处理等方式解决）
如何选择微调算法。如Lora、P-tune、SFT等。Lora一般比较稳定。SFT Scaling law 论文表明，当数据量仅在几千条时，P-tuning是最佳选择；数据量在几千至万条之间时，Lora更为适合；而当数据量达到百万级别时，Full-tunning效果最佳。此外，使用 Full-tunning 会导致训练后的模型泛化性不如 Lora。

为什么大模型会「说胡话」？如何解决大模型的「幻觉」问题？ - 平凡的回答 - 知乎
https://www.zhihu.com/question/635776684/answer/3336439291

浅谈大模型 SFT 的实践落地： 10 问 10 答 - 周星星的文章 - 知乎
https://zhuanlan.zhihu.com/p/692892489

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】