爱喝兽奶帝天荒

这个屌丝很懒，什么也没留下！

热门标签

Transformer 与目标跟踪_transformer 目标跟踪

作者：爱喝兽奶帝天荒 | 2024-08-21 06:04:01

踩

transformer 目标跟踪

Transformer 在视觉领域遍地开花，终于目标跟踪也没能逃过。并行的长距离依赖（空间和时间皆可）对于目标跟踪似乎有着天然的优势，本篇笔记简要概述今年 CVPR2021 关于 Transform 在目标跟踪中的应用，主要介绍动机和结构，细节和实验部分以后有空再补充。

论文列表：

Transformer Tracking
Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
Learning Spatio-Temporal Transformer for Visual Tracking
Target Transformed Regression for Accurate Tracking

Transformer Tracking

论文
 代码
 代码框架解析

动机

跟踪中常用的 correlation 存在问题：
是一个局部线性匹配过程，没有利用全局上下文，容易陷入局部最优；
得到的相似图丢失一定程度的语义信息，导致对目标边界预测不准。

利用 transformer 的 attention 有效融合模板特征和 ROI 特征，相比 correlation 能产生更多的语义特征。作者提出了基于 self-attention 的 ego-context augment module (ECA) 和基于 cross-attention 的 cross-feature augment module (CFA)

结构

重复 N=4 次 fusion layer 最后再接一个 CFA

ECA 和 CFA 结构

transformer 工作过程

n=1 self search 没有来自模板的信息，因此会看到所有目标，而 self template 关注模板的关键信息（蚂蚁上的红点）；cross search 和 template 同时具有目标和搜索的特征，因此可以更关注重要信息；
n=2 每一个 attention 输入都同时包含目标和搜索特征，self search 对相似物的响应被抑制了，而 cross search 此时非常确信其预测。template 的注意力此时开始关注目标边界；
n=3 进一步强化，模板特征成为包含大量目标边界信息的信息库，而搜索区域特征保留了目标的空间信息；
n=4 模板的分布变得混乱，这可能是因为，在目标确定之后，模板分支的特征不再需要保留模板本身的信息，而是存储了大量目标的边界信息，成为一个为回归服务的特征库。

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

论文
 代码

动机

现有的跟踪器常常忽略连续帧之间的 temporal contexts

单帧独立检测方法：对时域信息的利用只有运动先验（余弦窗）
模型更新方法：视频帧是独立的，没有相互推理关系；噪声会污染模型更新

transformer 中的注意机制，能够建立跨帧的像素对应关系，在时间域内自由传递各种信号。

本文将各个独立的视频帧进行桥接，并通过 transformer 架构来探索它们之间的 temporal contexts，以实现鲁棒的目标跟踪。与经典的 transformer 的结构不同，作者将其编码器和解码器分离成两个平行的分支，并在 Siamese-like 跟踪管道中对其精心设计。

结构

编码器通过基于注意力的特征强化来促进目标模板，有利于高质量的跟踪模型生成；

解码器将之前模板中的跟踪线索传播到当前帧，有利于目标搜索过程。

与经典 transformer 结构的差异：

Encoder-decoder Separation. 没有将编码器和解码器级联，而是将编码器和解码器分离为两个分支，以适应 Siamese-like 跟踪方法；
Block Weight-sharing. 编码器和解码器中的 self-attention (图 4 中的黄色方框) 共享权值，将模板和搜索转换到同一特征空间中，便于进一步 cross-attention；
Instance Normalization. 将 Layer Norm 换成 Instance Norm；
Slimming Design. 移除 FFN，并且使用 single-head attention。

图 4 编码器解码器结构细节：

编码器：输入模板特征 $T \in [N_T, C], N_T=n \times H \times W$ , $n$ 为模板数量；

解码器：输入搜索特征 $S \in [N_S, C], N_S=H \times W$

高斯 Mask $M \in [N_T, 1]$

Mask Transformation 关注空间注意力，Feature Transformation 关注上下文信息

跟踪框架

Siamese 框架将编码器特征 crop 后和解码器特征做相关；
DCF 框架用编码器特征训练 Dimp 的 kernel，作用于解码器特征；
将上一帧中所有目标框的最小外接矩形 bm 扩大一定倍率得到搜素区域 bs。

模板池每 5 帧更新一次，先入先出。

缺点

严重（完全）遮挡，出视野，高计算量

Learning Spatio-Temporal Transformer for Visual Tracking

论文
 代码

动机

卷积只处理空间或时间上的局部关系，不擅长建立长距离的全局依赖关系。因此在面对目标发生较大形变或频繁进出视野时容易失败。另外，当前的方法将空间和时间分离处理，并没有明确建模空间和时间之间的关系。

考虑到 transformer 在建模全局依赖方面的优势，作者利用它整合空间和时间信息进行跟踪，生成判别的时空特征用于目标定位。

编码器对目标对象和搜索区域之间的全局时空特征依赖关系进行建模，而解码器学习一个查询嵌入来预测目标对象的空间位置。该方法将目标跟踪作为一个直接的边框预测问题（角点预测），没有后处理。

结构

Baseline (spatial-only)

编码器输入将模板和搜索特征拉平拼接；

解码器中 query 可以注意到模板和搜索区域的所有位置的特征，从而学习鲁棒表示，以进行边框预测；

预测头将 Encoder 输出中的搜索特征和 decoder 输出经过图 3 的结构，通过概率预测两个角点，最后输出唯一的框，用 L1 和 IOU loss 优化。

Spatio-Temporal Transformer Tracking

相比 baseline 的改变：三元输入、增加分数预测头、训练 & 推理策略

训练分为两阶段：第一阶段不训练 score head，搜索图像全部包含目标；第二阶段固定其他参数单独训练 score head，搜索图像中有一半不包含目标（训练时只要搜索图像包含目标则认为可以更新）；

推理时达到更新间隔且分数大于阈值更新模板

本文结构与 DETR 的区别

任务不同，检测 vs 跟踪
输入不同，detr 输入整个图像，本文输入三元组，一个 search 和两个 template；
query 和训练策略，detr 有 100 个 query 并且每个都需要匈牙利匹配 gt，而本文只有一个 query 和唯一 gt；
预测头不同，detr 三层感知器，本文基于角点预测

Target Transformed Regression for Accurate Tracking

论文
 代码

动机

如何将目标信息整合到回归分支中，保留精确的边界信息并及时处理各种目标变化对于跟踪是至关重要的。

dw-corr 将整个目标当成滤波器，只有目标的全局信息，面对物体变形时难以准确反映边界；

pix-corr 忽略了目标模板中的少量背景会对目标外部区域赋予较大的注意力权重。

作者利用 transformer的交叉注意力来建模模板和搜索区域的每个元素之间的 pair-wise 关系，并用其增强原始特征。这种特征表达能够增强目标相关信息，帮助精确定位边界，并由于其局部和密集匹配机制，在一定程度上适应目标变形。

此外，设计了一个简单的在线模板更新机制来选择可靠的模板，提高了对目标外观变化和几何变形的鲁棒性。

结构

设计准则：

目标集成模块，保留充足的目标信息以生成精确目标边界；
像素级的上下文建模，以增强目标相关的特征和处理形变；
高效的在线机制，以处理连续序列中的外观变化。

TREG 整体结构，核心是黄色的 target-aware transformer，其余结构参考 FCOT

Online Target-aware Transformer for Regression. (a) Target-aware transformer (b) Online template update mechanism

将搜索特征看成 query，目标被编码成 key 和 value，对每一个 query，都利用所有 key 和 value 为其提供加权聚合响应。

$x_i$ 是搜索特征， $t_j$ 是目标特征， $\Omega _k$ 表示目标模板的所有位置， $k$ 表示模板池的序号；

$\theta_{x_i}, \phi_{t_j}, \omega_{t_j}$ 分别表示 query, key, value；

注意这里归一化使用 1/N 而不是 softmax。

The reason lies in that some positions in background and distractors of the search region are expected to have low dependency with target, while Softmax function will amplify this noise influence as the sum of attention weights between the query and all the keys is always 1.

在线更新模板，构建模板序列，包含 3 个静态模板和 4 个动态模板，静态的由第一帧变换增广生成，动态的取每 n 帧中得分最高的。

消融实验

图 4 展示物体在序列发生了变化，本文的 transformer 增强了目标包括头部和脚在内的边界。

表 1 TAT-Cls 表示将 transformer 用于分类，效果稍微下降，因为 pixel-to-pixel 的匹配方法往往忽略了目标的整体信息，不适合区分相似的对象。

补充

本文的结构和 CVPR2021 另外一篇文章也有些类似，即 Graph Attention Tracking，可以参考我在 b 站的笔记。作者将模板和搜索特征的每个位置看成节点，使用图注意力构建局部密集的匹配关系用于加强原始特征。实现方式也和 transform 的交叉注意力类似，可以说是殊途同归。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/1010435