赞
踩
使用限制参数值的选择范围来控制模型容量
通常不限制偏移b(限不限制都差不多)
小的θ意味着更强的正则项
对每个θ,都可以找到λ使得之前的目标函数等价于下面。
可以通过拉格朗日乘子来证明
超参数λ控制了正则项的重要程度
λ=0:无作用
λ→∞,
w
∗
w^*
w∗→0
①绿色的线就是原始损失函数l的等高线,优化原始损失l的最优解(波浪号即最优解)在中心位置。
②当原始损失加入二分之λ的项后,这个项是一个二次项,假如w就两个值,x1(横轴)、x2(纵轴),那么在图上这个二次项的损失以原点为中心的等高线为橙色的图所示。所以合并后的损失为绿色的和黄色的线加一起的损失。
③当加上损失项后,可以知道原来最优解对应的二次项的损失特别大,因此原来的最优解不是加上二次项后的公式的最优解了。若沿着橙色的方向走,原有l损失值会大一些,但是二次项罚(penalty→惩罚)的损失会变小,当拉到平衡点以内时,惩罚项减少的值不足以原有l损失增大的值,这样w * 就是加惩罚项后的最优解。
④ 损失函数加上正则项成为目标函数,目标函数最优解不是损失函数最优解。正则项就是防止达到损失函数最优导致过拟合,把损失函数最优点往外拉一拉。鼓励权重分散,将所有额特征运用起来,而不是依赖其中的少数特征,并且权重分散的话它的内积就小一些。
⑤ l2正则项会对大数值的权值进行惩罚。
计算梯度:
时间t更新参数:
让损失函数减低就往梯度的反方向走,所以需要减去梯度。
所以
通常ηλ<1在深度学习中通常叫做权重衰退
把
w
t
+
1
w_{t+1}
wt+1=
w
t
w_t
wt-η梯度看成向量-η梯度表示的是沿着梯度这个向量反方向变化。
权重衰退通过L2正则项使得模型参数不会过大,从而控制模型复杂度。
正则项权重是控制模型复杂度的超参数。
演示一下权重衰减,为了使过拟合的效果更加明显,我们可以将问题的维数增加到
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。