赞
踩
本文归纳了transformer-based的模型中的positional-embedding。
首先明白第一点:
Q: Why need positional embedding in Transformer?
A: 跟 CNN/RNN 不同,self-attention并不会记录位置信息。
位置编码可以使self-attention记忆位置信息。
Attention Is All You Need
文章里叫“Positional Encoding”
随着特征维度的升高,正余弦函数频率wk 是降低的,
因此,可视化特征维度中几维:横坐标是位置信息
可以看到,位置编码的序列如上图所示。序列中每个token(一排)被唯一定义,每个token中的每个维度也被唯一定义,token中不同特征维度按照余弦-正弦-余弦…的方式编码。
也能看到,为了避免编码重复,编码对维度有要求,一般d取512。
更新No.1:
object query随机初始化,
转载一下较好的理解DETR object query理解
No.2
这里spatial positional encoding是作者自己提出的二维位置编码方法,该位置编码分别被加入到了encoder的self attention和decoder的multi-head attention,同时object queries也被加入到了decoder的两个attention中.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。