搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
itdef
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
基于python flask茶叶网站数据大屏设计与实现,可以做期末课程设计或者毕业设计
2
MySQL 5.7 服务端 错误码 (机翻)_er_error_on_close
3
云计算-运维笔记_type="ethernet
4
Unity Shader零基础入门1:纯色物体_unity3d物体没有白色
5
从 Amazon Connect 全球云呼叫中心服务 SSO 构建流程
6
CSAPP Bomb lab(内含答案)_bomblab所有答案总结
7
Java高并发解决方案_java高并发解决方案技术
8
Windows主机中构建适用于K8S Operator开发环境_k8s windows搭建
9
【笔记】LeetCode字符串匹配_leetcode 字符串匹配
10
一个心塞的手忙脚乱的项目结束后的总结_项目结束各奔天涯
当前位置:
article
> 正文
LLM微调过程中灾难性遗忘问题解决方法_大模型lora微调如何避免灾难性遗忘
作者:itdef | 2024-02-03 19:07:19
赞
踩
大模型lora微调如何避免灾难性遗忘
灾难性遗忘是LLM
微调
过程中最常见的问题,下面是一些解决办法:
将重要的权重冻结:像Lora就是采用的这种方案,只学习部分网络权重。但这里Lora的配置其实是要注意一下,如果你是用Lora做预训练,lora训练模块可以配上 q_proj,v_proj,k_proj,o_proj 如果是微调则只需要训练q_proj,v_proj。lora_rank的设置也有讲究,初始设lora_ran为8,训练存在遗忘时,可以将 lora_rank改为64(原因是与原模型数据领域相差较大的话,需要更大的秩,原论文有说明)
复习:跟人一样,在预训练或微调时,回看之前训练的数据。还可以专门把特征图存起来,量化以后放在一个类似于记忆库的地方,之后在新任务上训练的时候从这个记忆库里重构出记忆和新数据一起训练。感兴趣可以看这篇论文:
REMIND Your Neural Network to Prevent
Catastrophic Forgetting
MoE:稀疏门控制的专家混合层,最近爆出GPT4是由 8个220B的模型组合。但个人体验,阉割版的GPT4变得智障了很多。
数据蒸馏:损失函数由teacher-student的KL loss和groud truth label构成:https://github.com/beyondguo/LLM-Tuning/discussions/24
参考
大语言模型Fine-tuning踩坑经验之谈
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/article/detail/57747
推荐阅读
article
第六篇:
微
服务
框架
(
SpringBoot
、
SpringCloud
)...
一.
SpringBoot
二.
SpringCloud
_
微
服务
框架
微
服务
框架
目录 一.
微
服务
...
赞
踩
article
微
服务
基础技能
SpringBoot
详解!_
springboot
微
服务
...
微
服务
基础技能
SpringBoot
详解!一片大文章从入门到实战不来看看吗?_
springboot
微
服务
springbo...
赞
踩
article
MyBatisGenerator
自动
生成
java
代码(反向工具)
_
java
mgenerator
...
1、引入jar:mybatis-generator-core-1.3.1-bundle.zip2、编写主类,程序入口:p...
赞
踩
article
ArcGIS
Desktop
使用
入门(二)
常用工具
条——
编辑器
_
arcgis
编辑器
...
本文介绍
编辑器
工具条_
arcgis
编辑器
arcgis
编辑器
...
赞
踩
article
int
0x15
AX =
0xE820
用法_
0x15
e820
...
int
0x15
h1. 获取内存信息 功能号: ax == 0E820hebx 放置后续值,第一次调用ebx必须为0es...
赞
踩
article
TensorRt
(3)
mnist
示例
中
的C++
API
_
nvinfer1
...
目前使用主要
API
函数位于
中
,根据输入的第三方支持模型类型选择或。主要的一些对象,包含基本的、、、,模型解析/,推理运行...
赞
踩
article
SpringBoot
开发
流程...
1、新建项目_springboot
开发
流程springboot
开发
流程 1、新建项目 Spri...
赞
踩
article
bios
提取工具_关于
笔记本
BIOS
如何修改
dvmt
容量为64M和解锁
cfg
lock
...
随着黑苹果(hackintosh)OpenCore引导的日趋完善,黑苹果的体验也越来越好。但是黑苹果
笔记本
的体验始终没有...
赞
踩
article
Apache
Solr
远程
命令
执行
漏洞
(
CVE
-2019-0193)...
Apache
Solr
远程
命令
执行
漏洞
(
CVE
-2019-0193)_cve-2019-0193cve-2019-01...
赞
踩
article
Airflow
原理
浅析...
Airflow
原理
浅析
Airflow
原理
浅析 ⭐️ airflo...
赞
踩
article
C语言
如何
认识
printf
()
函数
的
格式
字符
?...
printf
()
函数
对输出
格式
到底该
如何
控制呢?
C语言
如何
认识
printf
()
函数
的
格式
字符
? ...
赞
踩
article
Dockerfile
之优化经验浅谈
_
dockerfile
调优
...
http://www.tuicool.com/articles/ieE3ueM
_
dockerfile
调优
dockerfi...
赞
踩
article
ORACLE
-
SQL
调优_
oracle
sql
调优...
sql
调优_
oracle
sql
调优
oracle
sql
调优 –...
赞
踩
article
java
与
c#
学那样
好
,
谁
更
有
前景
些?...
C#与Java,单从语言角度来讲
,
C#可能
更
强一点。但是
,
需要选择的是platform,而不仅仅是语言本身。c语言
好
吧
,
...
赞
踩
article
Whistle
抓包详细使用
教程
...
Whistle
使用
教程
介绍whistle 官网whistle githubwhistle主要用于查看、修改HTTP、HT...
赞
踩
article
Docker
镜像
大小优化...
如何缩小
镜像
的体积大小?1)尽可能的使用小体积的基础
镜像
2)尽可能减少
Docker
file文件中的指令数量3)构建
镜像
步...
赞
踩
article
ArcGIS
:
统计
各个点分别
属于
哪个
行政区
_
gis
怎么批量判断面要素
属于
哪个
行政区
...
使用以上方法就可以实现各个点对应的
行政区
域。_
gis
怎么批量判断面要素
属于
哪个
行政区
gis
怎么批量判断面要素
属于
哪个行政...
赞
踩
article
分别用
Java
Script
,
Java
,
PHP
,
C++实现
桶
排序
的算法(附带源码)...
桶
排序
是计数
排序
的升级版。它利用了函数的映射关系
,
高效与否的关键就在于这个映射函数的确定。同时
,
对于
桶
中元素的
排序
,
选择...
赞
踩
article
Python
爬虫
实战(基础篇)—
1
获取
微博
TOP
1
0
热
搜
(附完整代码)_帮我写一个爬取
微博
热
搜
的py...
【代码】
Python
爬虫
实战(基础篇)—
1
获取
微博
TOP
1
0
热
搜
(附完整代码)爬取
微博
热
搜
python
爬取
微博
热
搜
_帮我...
赞
踩
article
web
前端
入门到实战:Vue项目中使用
Axios
封装
http
请求
_基于
axios
封装一个
前端
http
...
使用
axios
可以统一做
请求
响应拦截,例如
请求
响应时我们拦截响应信息,判断状态码,从而弹出报错信息。
请求
超时的时候断开请...
赞
踩
相关标签
spring boot
spring cloud
微服务
spring
java
arcgis
编辑器
经验分享
c++
caffe
深度学习
bios提取工具
solr
apache
lucene
大数据
python
分布式
c语言
开发语言
oracle
sql
数据库
c#