赞
踩
均方误差(MSE)是最常用的回归损失函数,它是目标变量和预测值的差值平方和。该函数给出输入x和目标y中的每个元素之间的均方误差(squared L2 norm,平方L2范数)。它也被称为L2 Loss。
上图为均方误差函数图,其中目标真值为 100,预测范围在-10000 到 10000 之间,均方 误差损失(Y 轴)在预测值(X 轴)=100 处有最小值,范围为 0~∞。
主要问题:
导数变化,不稳定,尤其是在早期阶段(损失越大,导数越大),随着导数越来越小, 训练速度变得越来越慢。
二次函数 L = ( y − y ^ ) 2 2 L=\frac{(y-\hat{y})^2}{2} L=2(y−y^)2
采用链式法则求导,则有:
∂
L
∂
w
=
(
y
^
−
y
)
σ
(
z
)
′
x
\frac{\partial L}{\partial w}=(\hat{y}-y){\sigma(z)}'x
∂w∂L=(y^−y)σ(z)′x
∂
L
∂
b
=
(
y
^
−
y
)
σ
(
z
)
′
\frac{\partial L}{\partial b}=(\hat{y}-y){\sigma(z)}'
∂b∂L=(y^−y)σ(z)′
可以看出梯度都与sigmoid函数的梯度有关,如下图所示,sigmoid函数在两端的梯度均接近0,这导致反向传播的梯度也很小,这就这就不利于网络训练,这就是梯度消失问题 。
https://atcold.github.io/pytorch-Deep-Learning/en/week11/11-1/
In making predictions when we have a lot of different y’s:
Using L1 results in sharper image for prediction.
https://atcold.github.io/pytorch-Deep-Learning/en/week11/11-1/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。