羊村懒王

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

机器学习基础---神经网络---全连接网络及BP算法_j。x l _.bl)

作者：羊村懒王 | 2024-03-21 11:09:48

赞

踩

j。x l _.bl)

BP神经网络

方法描述

方法思想：

使用复合函数 $f(x)=f^m(f^{(m-1)}(...f^1(x)))$ 拟合输入样本集 $X$ 到标签集 $Y$ 之间的映射
针对一个样本 $x_i$ 进行计算的过程是正向的，从 $f^1(x)$ 到 $f^m(x)$ 一步步计算，称作正向传播
优化复合函数，即调整每一层函数参数以使得预测结果偏差最小的过程中，需要从结果的误差出发，向前传递误差，进而修改参数，此为反向传播（BP）

相关概念

感知机

在这里插入图片描述

如上图所示，每个圆代表一个神经元，对来自其他神经元的信号输入 $x=[x_1,x_2,...,x_k]$

经过神经元处理 $f=\sum_{i=1}^kw_ix_i+bias$ 得到 $f$ ，类似于神经元细胞对来自其他神经元细胞的传递的刺激脉冲的累加

再对使用阶跃函数处理 $f$ ，即根据累加脉冲是否达到阈值判断神经元是否有输出

事实上，感知机是一个线性二分类模型，也可以表示为 $f(x)=sign(w^Tx+b)$ ，与寻找超平面将线性可分样本分开等价

多层感知机（全连接神经网络）

全连接神经网络，可以视作是由多个感知机构成的

中间层称作隐藏层，可以有多个
激活函数
- 神经元累加脉冲的步骤可以用矩阵乘 $W \cdot x$ 表示，将多层直接联系起来有 $f(x)=W_mW_{m-1}...W_1x$ ，其仍然是一个仿射变换
- 因此为了实现对非线性映射的拟合，可以选择在每一层输出处引入一个非线性变换，即激活函数
- 常用的激活函数有：
  - Relu
    $Relu(x)={0 x≤0x x>0$
    $\begin{cases} 0 \ \ \ \ \ \ \ x\leq0\\ x \ \ \ \ \ \ \ x>0 \end{cases}$ $R e l u (x) = {0 x \leq 0 x x > 0$
  - sigmoid函数
    $sigmoid(x)=\frac1{1+e^{-x}}$
  - tanh函数
    $tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$

方法推导

反向传播
如图，是 $l$ 层全连接网络

在这里插入图片描述

令：第 $l - 1$ 层与第 $l$ 层之间的权重向量为 $w^l$ ，偏置向量为 $b^l$ ，第 $l$ 层未激活的累加信号向量 $Z^l$ ，第 $l$ 层激活后的累加信号向量 $\alpha^l$

前向传播的过程可以用迭代的方式表示为：
$\alpha^l=\sigma(Z^l)=\sigma(W^l\alpha^{l-1}+b^l) \ \ \ \ \ \ (l=2,3,...,L)\\ \alpha^1=x$

定义损失函数为平方损失函数：
$J(W,b,x,y)=\frac12||\alpha^L-y||_2^2=\frac12||\sigma(W^L\alpha^{L-1}+b^L)-y||^2$
求解损失函数梯度：

$\begin{aligned} &\frac{\partial J(W,b,x,y)}{\partial{W^L}}=[(\alpha^L-y)·\sigma'(Z^L)](\alpha^{L-1})^T\\ &\frac{\partial J(W,b,x,y)}{\partial{b^L}}=(\alpha^L-y)·\sigma'(Z^L)\\ &\frac{\partial J(W,b,x,y)}{\partial{Z^L}}=(\alpha^L-y)·\sigma'(Z^L)\\ \end{aligned}$ 此处(\alpha^L-y)·\sigma'(Z^L)为相应位置元素相乘 $\frac{\partial J ( W , b , x , y )}{\partial W ^{L}} = [(α^{L} - y) \cdot σ^{'} (Z^{L})] (α^{L - 1})^{T} \frac{\partial J ( W , b , x , y )}{\partial b ^{L}} = (α^{L} - y) \cdot σ^{'} (Z^{L}) \frac{\partial J ( W , b , x , y )}{\partial Z ^{L}} = (α^{L} - y) \cdot σ^{'} (Z^{L}) 此处 (α^{L} - y) \cdot σ^{'} (Z^{L}) 为相应位置元素相乘$

$记：\delta^L=\frac{\partial J(W,b,x,y)}{\partial{Z^L}}=(\alpha^L-y)·\sigma'(Z^L)$
由 $Z^l=W^l\alpha^{l-1}+b^l$

$\begin{aligned} &\frac{\partial{J(W,b,x,y)}}{\partial{W^l}}=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}\frac{\partial Z^l}{\partial{W^l}}=\delta^l(\alpha^{l-1})^T\\ &\frac{\partial{J(W,b,x,y)}}{\partial{b^l}}=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}\frac{\partial Z^l} {\partial{b^l}}=\delta^l \end{aligned}$ $\frac{\partial J ( W , b , x , y )}{\partial W ^{l}} = \frac{\partial J ( W , b , x , y )}{\partial Z ^{l}} \frac{\partial Z ^{l}}{\partial W ^{l}} = δ^{l} (α^{l - 1})^{T} \frac{\partial J ( W , b , x , y )}{\partial b ^{l}} = \frac{\partial J ( W , b , x , y )}{\partial Z ^{l}} \frac{\partial Z ^{l}}{\partial b ^{l}} = δ^{l}$
由
$\delta^l=\frac{\partial J(W,b,x,y)}{\partial{Z^l}}=(\frac{\partial Z^{l+1}}{\partial{Z^l}})^T\delta^{l+1}$

$Z^{l+1}=W^{l+1}\alpha^l+b^{l+1}=W^{l+1}\sigma(Z^l)+b^{l+1}\\ \frac{\partial Z^{l+1}}{\partial{Z^l}}=W^{l+1}\sigma'(Z^l)$
即可以从第L层开始，计算 $\delta^L$ ，一层层向前计算 $\delta^l$ ，进而求得损失函数对第l层 $W^l$ 与 $b^l$ 的偏导

方法流程

初始化每一层 $W, b$
输入 $\alpha^1=x$
前向传播
$\alpha^{i,l}=\sigma(W^{l}\alpha^{i,l-1}+b^{l})$
计算：
$\delta^L=(\alpha^L-y)·\sigma'(Z^L)$
从 $l = L - 1$ 到 $l = 2$ ，反向逐层计算：
$\delta^{i,l}=W^{l+1}\delta^{i,l+1}·\sigma'(z^{i,l})$
更新：
$W^l=W^l-\eta\sum_{i=1}^m\delta^{i,l}(\alpha^{i,l-1})^T\\ b^l=b^l-\eta\sum_{i=1}^m\delta^{i,l}$
满足误差条件后结束，否则返回第三步
得到所有的 $W, b$ ，对新样本前向传播求解

参考资料

【1】[神经网络反向传播矩阵求导][https://zhuanlan.zhihu.com/p/83859554?from_voters_page=true]

【2】[矩阵求导术（上）][https://zhuanlan.zhihu.com/p/24709748]

【3】[BP算法的矩阵推导][https://blog.csdn.net/qq_35269774/article/details/88585053]

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/280779

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号