小小林熬夜学编程

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

什么是自注意力机制（Self-attention）

作者：小小林熬夜学编程 | 2024-03-29 21:06:53

赞

踩

自注意力机制

文章目录

1. Self-attention的基本概念
2. Self-attention for Image
- 2.1. Self-attention v.s. CNN
- 2.2. Self-attention v.s. RNN

RNN网络的的输入是一个定长的向量。例如，分类网络的输入图片大小是固定的。当网络的输入变为变长的向量时，RNN网络就不再适用了，自注意力机制（Self-attention）可以解决这一问题，通过“动态”地生成不同连接地权重。

1. Self-attention的基本概念

如下图所示，自注意力机制的输入为长度为 $N$ （ $N$ 可变化）的向量，输出同样为长度为 $N$ 的向量。

在这里插入图片描述

1.1. Self-attention的单个输出

自注意力机制根据各个输入向量的关联输出，使得每个输出向量包含输入向量的上下文关系。首先需要计算两个输入向量的关联 $\alpha$ 。

在这里插入图片描述
如下图所示为Dot-product和Additive两种计算关联 $\alpha$ 的方法。

Dot-product： $\alpha=(W^qa^1)\cdot(W^ka^2)$
Additive： $\alpha=W\tanh(W^qa^1\oplus W^ka^2)$ ， $\oplus$ 表示拼接

其中 $W^q$ 和 $W^k$ 分别为计算query和key的权重矩阵，通过学习得到。

在这里插入图片描述
假设使用最常用的Dot-product方法，分别计算输入向量 $a^1$ 和向量 $a^1,a^2,a^3,a^4$ 的关联性，并经过softmax处理（或relu等其他方法），得到的关联性分别为 $\alpha'_{1,1},\alpha'_{1,2},\alpha'_{1,3},\alpha'_{1,4}$

在这里插入图片描述
根据输入向量 $a^1$ 和向量 $a^i$ 的关联性的 $\alpha'_{i,1}$ （ $i = 1, 2, 3, 4$ ），可以计算得到 $a^1$ 对应的输出向量 $b^1=\sum_i\alpha'_{1,i}v^i$ 其中 $v^i=W^va^i$ ， $W^v$ 为计算value的权重矩阵，通过学习得到。

在这里插入图片描述
同样地，根据输入向量 $a^2$ 计算向量 $a^i$ 的关联性的 $\alpha'_{i,1}$ （ $i = 1, 2, 3, 4$ ），然后计算 $a^2$ 对应的输出向量 $b^2=\sum_i\alpha'_{2,i}v^i$ 其中 $v^i=W^va^i$ 。

在这里插入图片描述
将相同的过程应用于 $b^2,b^3,b^4$ ，就可以得到输入向量 $a^1,a^2,a^3,a^4$ 对应的自注意力机制的输出。

在这里插入图片描述

1.2. Self-attention的并行计算

注意到输出 $b^1,b^2,b^3,b^4$ 是无先后顺序的，因此可以同时计算。在机器学习中，通过矩阵运算实现。
在这里插入图片描述
得到： $Q=W^qI$ $K=W^kI$ $V=W^vI$ 之后使用Dot-product方法用矩阵计算输入向量 $a^1$ 和向量 $a^1,a^2,a^3,a^4$ 的关联性为 $\alpha'_{1,1},\alpha'_{1,2},\alpha'_{1,3},\alpha'_{1,4}$ ：

在这里插入图片描述
同理可以计算输入向量 $a^1,a^2,a^3,a^4$ 和向量 $a^1,a^2,a^3,a^4$ 的关联性矩阵并做softmax处理：

在这里插入图片描述
得到： $A'=softmax(K^TQ)$ ，最后，同理通过矩阵的方式得到输出 $O$ ：

即： $O = V A^{'}$ 整个自注意力机制从输入 $I$ 到输出 $O$ 的流程为：

在这里插入图片描述
用公式的形式为 $O=Vsoftmax(K^TQ)$

1.3. Multi-head Self-attention

对于多头自注意力机制，原本的参数矩阵 $W^q,W^k,W^v$ 都被分割成2个新的矩阵（以2头自注意力机制为例），在进行输出计算的时候，分别计算输入和每一个分割后的矩阵的计算结果。

对于第1个头的结果 $b^{i,1}$ ，将输入和 $W^{q,1},W^{k,1},W^{v,1}$ 计算：

在这里插入图片描述
对于第2个头的结果 $b^{i,2}$ ，将输入和 $W^{q,2},W^{k,2},W^{v,2}$ 计算：

在这里插入图片描述

1.4. Positional Encoding

注意到，在之前的自注意力机制中，没有位置信息，即调换 $a^1$ 和 $a^4$ 的顺序对结果也没有任何影响，但是在实际情况中，有时候位置的信息也是重要的，这时候就需要Positional Encoding。

在每一个位置上设置一个位置向量 $e^i$ ，使用时和输入向量 $a^i$ 求和

在这里插入图片描述
$e^i$ 可以通过人为给定或者机器学习得到，下图为一些 $e^i$ ：

在这里插入图片描述

2. Self-attention for Image

可以将一张图片考虑为一个向量的结合，每一个像素点的RGB三个元素组成一个向量，因此就可以用自注意力机制进行图像的处理:

在这里插入图片描述

两个用自注意力机制处理图像的例子：

在这里插入图片描述

2.1. Self-attention v.s. CNN

由于CNN只考虑一个 $\times K$ 的接受域内的像素，而self-attention的接受域为整张图片，如下图所示。因此CNN可以视为一个简化版的self-attention。

在这里插入图片描述
事实上，如下的文章严谨地证明了这一结论：只要设定合适的参数，self-attention可以达到和CNN一样的效果。

在这里插入图片描述
由于CNN可以视为一个简化版的模型，而self-attention相对复杂。因此CNN适合于相对较小地数据集，而self-attention适合于更大的数据集。如下图所示，self-attention在大数据集上的效果更好。

在这里插入图片描述

2.2. Self-attention v.s. RNN

Self-attention和RNN的主要区别在于：

Self-attention可以考虑全部的输入，而RNN似乎只能考虑之前的输入（左边）。但是当使用双向RNN的时候可以避免这一问题。
Self-attention可以容易地考虑比较久之前的输入，而RNN的最早输入由于经过了很多层网络的处理变得较难考虑。
Self-attention可以并行计算，而RNN不同层之间具有先后顺序。

在这里插入图片描述

课程链接：不会还有人没听【2022】最新李宏毅大佬的深度学习与机器学习吧？？？

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/337434

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号