搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小小林熬夜学编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
CorelDRAW Graphics Suite 2024企业版CDR2024中文版震憾来袭_coreldraw technical suite 2024
2
Python flask request
3
openstack上传镜像的三种方式,两种底层上传和dashboard上传、glance image-create上传报错_openstack怎么上传镜像
4
最新R软件 安装程序包 和错误解决_r软件包3.6.2
5
AI入门之深度学习:基本概念篇
6
【免费题库】华为OD机试 - 石头剪刀布游戏(Java & JS & Python & C & C++)
7
深度学习的循环神经网络_循环神经网络的优点
8
小学计算机教案免费版,小学三年级下册信息技术教案(清华版)
9
在WIN10下通过网口给华为海思Hi3516DV300刷机(鸿蒙系统)_海思刷机工具
10
用SegNet进行室内布局语义分割
当前位置:
article
> 正文
权重衰减(weight decay)与学习率衰减(learning rate decay)
作者:小小林熬夜学编程 | 2024-04-01 18:16:44
赞
踩
weight decay
“微信公众号”
1. 权重衰减(weight decay)
L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。
1.1 L2正则化与权重衰减系数
L2正则化就是在代价函数后面再加上一个正则化项:
其中C0
代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0
项的比重。另外还有一个系数1/2
,1/2
1/211
经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2
相乘刚好凑整为1。系数λ
就是
权重衰减系数
。
1.2 为什么可以对权重进行衰减
我们对加入L2正则化后的代价函数进行推导,先求导:
可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响:
在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为1-ηλ/n,
因为η、λ、n都是正的,所以
1-
η
λ/n
小于1,它的效果是减小w,
这也就是权重衰减(weight decay)的由来。
当然考虑到后面的导数项,w最终的值可能增大也可能减小。
另外,需要提一下,对于基于mini-batch的随机梯度下降,w和b更新的公式跟上面给出的有点不同:
对比上面w的更新公式,可以发现后面那一项变了,变成所有导数加和,乘以η再除以m,m是一个mini-batch中样本的个数。
1.3 权重衰减(L2正则化)的作用
作用:
权重衰减(L2正则化)可以避免模型过拟合问题。
思考:
L2正则化项有让w变小的效果,但是为什么w变小可以防止过拟合呢?
原理:
(1)从模型的复杂度上解释:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合更好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。(2)从数学方面的解释:过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。
内容来自:
正则化方法:L1和L2 regularization、数据集扩增、dropout
2. 学习率衰减(learning rate decay)
在训练模型的时候,通常会遇到这种情况:我们平衡模型的训练速度和损失(loss)后选择了相对合适的学习率(learning rate),但是训练集的损失下降到一定的程度后就不在下降了,比如training loss一直在0.7和0.9之间来回震荡,不能进一步下降。如下图所示:
遇到这种情况通常可以通过适当降低学习率(learning rate)来实现。但是,降低学习率又会延长训练所需的时间。
学习率衰减(learning rate decay)
就是一种可以平衡这两者之间矛盾的解决方案。学习率衰减的基本思想是:学习率随着训练的进行逐渐衰减。
学习率衰减基本有两种实现方法:
线性衰减。例如:每过5个epochs学习率减半。
指数衰减。例如:随着迭代轮数的增加学习率自动发生衰减,每过5个epochs将学习率乘以0.9998。具体算法如下:
decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)
其中decayed_learning_rate为每一轮优化时使用的学习率,learning_rate为事先设定的初始学习率,decay_rate为衰减系数,decay_steps为衰减速度。
Reference:
(1)学习率衰减部分内容和图片来自:
学习率衰减(learning rate decay)
(2)
神经网络学习率(learning rate)的衰减
本文内容由网友自发贡献,转载请注明出处:
https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/349777?site
推荐阅读
article
论文笔记-
Semantic
Learning
Based
Cross
-Platform Binary...
物联网的快速发展引发了比以往更多的安全需求,尤其是在物联网设备的漏洞检测方面。_
vulseeker
论文阅读笔记vulse...
赞
踩
article
Deep Learning : 深度前馈
神经网络
(三)_
element
-
wise
nonlinear
...
Hidden UnitsSo far we have focused our discussion on design ...
赞
踩
article
11_Training Deep
Neural
Networks_4_dropout_Max-Nor...
11_Training Deep
Neural
Networks_VarianceScaling_leaky relu_...
赞
踩
article
Paper
:《
Hidden
Technical
Debt
in
Mach
in
e
Learn
in
g S...
Paper
:《
Hidden
Technical
Debt
in
Mach
in
e
Learn
in
g
Systems
—机器...
赞
踩
article
Hyperbolic
Representation Learning for CV_hyperbol...
Hyperbolic
Representation Learning for CV_
hyperbolic
image
e...
赞
踩
article
【图像超分辨率】
Deep
Learning
for
Image
Super
-
resolution
: ...
1 介绍本文旨在对利用深度学习方法进行图像超分辨率的最新进展进行全面的调查。一般来说,我们可以将现有的SR技术研究大致分...
赞
踩
article
Deep
Learning
for
Image
Super
-
reso
lution 基于深度学习的...
论文 Deep
Learning
for
Image
Super
-
reso
lution:A Survey 摘抄图像超分辨...
赞
踩
article
用
Python
轻松实现
机器
学习
_
python
做
machine
learning
...
用
Python
轻松实现
机器
学习
_
python
做
machine
learning
python
做
machine
lear...
赞
踩
article
推荐
系统
如何从大
语言
模型
中收益:【①一定程度上解决冷启动
的
问题(训练数据不够时
,
可以使用
LLM
,
当数...
大
语言
模型
能够为
推荐
系统
带来充分
的
语义信号与外部知识;但是缺乏协同信号
,
推理代价高;大
语言
模型
凭借其强大
的
涌现能力在各个...
赞
踩
article
语义解析 (
Text
-
to
-
SQL
) 技术研究及应用 下篇_d
in
-
sql
:
decomposed
...
欢迎关注“百度NLP”官方微信公众号,及时获取更多自然语言处理领域的技术干货!原文链接:https://mp.weixi...
赞
踩
article
【论文学习笔记】《
DEEP
VOICE
3:
SCALING
TEXT
-TO-
SPEECH
WITH
...
《
DEEP
VOICE
3:
SCALING
TEXT
-TO-
SPEECH
WITH
CONVOLUTIONAL
SEQ...
赞
踩
article
论文阅读---
Albert
:Few-
shot
Learning
with
Retrieval Au...
论文阅读---
Albert
:Few-
shot
Learning
with
Retrieval
Augmented
La...
赞
踩
article
什么是
元
学习
(
Meta
Learning
)...
目录
元
学习
(
Meta
Learning
)
元
学习
介绍
元
学习
目的
元
学习
流程
元
学习
(
Meta
Learning
)
元
学习
介绍
元
学...
赞
踩
article
迁移
学习
(
Transfer
Learning
)_转导
迁移
学习
...
1.定义_转导
迁移
学习
转导
迁移
学习
1.定义 首先我们要清楚,机器
学习
中前提是训练数据和测试数据...
赞
踩
article
在
torch
.
hub
加载bert-base-chinese模型的时候出错
rate
limit
exc...
问题的产生代码model =
torch
.
hub
.load('huggingface/py
torch
-transform...
赞
踩
article
猫头虎分享已解决Bug ||
API
限制超额(
API
Rate
Limiting
):
Rate
Lim...
大家好,我是猫头虎博主,今天要和大家分享的是运维领域中常见的一类Bug——
API
限制超额(
API
Rate
Limiti...
赞
踩
article
torch
.hub.load报错
urllib
.
error
.
HTTP
Error
:
HTTP
Error
...
【代码】
torch
.hub.load报错
urllib
.
error
.
HTTP
Error
:
HTTP
Error
403: ...
赞
踩
article
yolov5
使用记录_
yolov5
urllib.
error
.
http
error
:
http
erro...
yolov5
使用记录:报错HTTP Error 403:
rate
limit exceeded,使用torch.hub....
赞
踩
article
BUG--
urllib
.
error
.
HTTP
Error
:
HTTP
Error
403:
rate
...
【代码】BUG--
urllib
.
error
.
HTTP
Error
:
HTTP
Error
403:
rate
limit
...
赞
踩
article
人工智能
大模型之多模态(Multimodal)
机器
学习
(Machine
learning
)的相关研...
它主要涉及:分析规划和获取运动信息的处理、步态的模式识别和分析以及步态的转换过程,以及脑电图和关节位置、足部压力等不同模...
赞
踩
相关标签
人工智能
安全
神经网络
深度学习
隐含层
ReLU
Sigmoid
数据科学
深度学习成本
计算成本
双曲表征学习
python
Python教程
职场和发展
开发语言
语言模型
自然语言处理
算法
tts
论文阅读