近几年目标跟踪论文简单分类综述_目标追踪综述性论文

作者：喵喵爱编程 | 2024-07-31 20:24:37

踩

目标追踪综述性论文

Siamese类

SiamFC（ECCV2016）
SiamRPN（CVPR2018 Spotlight）：SiamFC+RPN
DaSiamRPN（ECCV2018）
SiamRPN++（CVPR2019）：ResNet+multilevel feature，对每个层的特征都做RPN，再结合，和C-RPN不一样；
CFNet（CVPR2017）：第一篇将Siamese和相关滤波结合
RASNet（CVPR2018 王强）：对Siamese的网络详细分析，并且使用了三个attention来做
Triplet_tracker（ECCV2018）：使用三元组的损失，没有改变输入，只是损失函数上做
MemTracker（ECCV2018）：用了一个空间的attention，使得search区域更加准确，使用LSTM来控制模型更新，但是这个LSTM好像不怎么管用
SA_Siam（CVPR2018）：网络有四个branch，将语义和表观特征结合使用,使用了一个channel attention
MBMD(VOT2018long-term 1)：将Siamese网络作为预测网络，MDNet作为验证网络，然后Siamese使用的是MobileNet的网络结构，MDNet就是原始没有再训练，可以试试只用MobileNet做的效果；
EAST（ICCV2017）：这篇文章提出使用不同的特征处理不同的图片，简单图片使用浅的手工特征，难的图片就使用深度特征，用线下训练的强化学习方式做决策；
FlowTrack(CVPR2018)：利用FlowNet编码光流的信息，然后提出了Spatial-Temporal注意力机制来将光流信息集成到当前帧中；
SiamMask（CVPR2019)：将视频语义分割应用到目标跟踪中来，就是在Siamese网络后面多加了一个segmentation回归分支，然后利用翻卷积来做segmentation的准确定位。因为多任务所以学到的特征泛化性更强；
C-RPN(CVPR2019)：参考了two-stage的物体检测方式，在网络后面使用了三个RPN，后面两个RPN的输入都是上一个RPN的输出，这样网络就可以不用指定的anchor大小，而是自适应的，每个RPN还用了不同层的特征，最后再融合这些层的特征；
SiamDW（CVPR2019）：加了很多Inception来做，就是把网络搞宽了，看不懂网络结构，复现大概也很难，调参会调死；
SINT++(CVPR2018): 提出了传统的正样本都是从groundtruth附近提取的，所以都很像，所以他先是弄了个正样本生成网络，然后加了一个根据强化学习的正样本生成网络，用SINT的结构，总体论文是看不懂了，不过不是E2E的，但是只需要很少的训练，不过看不懂确实很伤了；
DenseSiam（VOT获奖）：使用非常密集的表示，把各个层的特征都放到一起，但是单看论文好像效果不是很好，但是人家在VOT2018 上好像表现很好，有空可以把代码跑一下；
SiamVGG(VOT2018)：就是把backbone改成了用VGG16，然后在大数据集上训练，效果很好
TADT（CVPR2019）：DAT和HART的结合，不过空间和尺度的attention弄到了channel维度上，用了两个loss来指导attention的学习，效果可以，论文写的很漂亮；
SPM-Tracker（CVPR2019)：用了两个stage，一个用RPN回归出score，另一个通过前一个stage的输出来做proposal的选择，大概是这个意思，做的时候用了多层的特征，时间120FPS，效果很好；
ATOM（CVPR2019 oral）：MD大神的作品，用了线下训练目标估计和线上训练分类来做，也提出了IoUNet的有用性，其实也可以理解为是一个two-stage的过程，也用了多层的特征；
EDCF（IJCAI2018）：也是Siamese的框架只不过是弄了encoder和decoder的结构，有点像分割的那种形式来回溯到原来大小，然后根据响应去做的预测；
EDCF（IJCAI2018）：王强的文章，用了编解码网络，通过反卷积回原始大小，来控制网络学到的特征鲁棒（类似hourglass的思路），同时比较巧妙使用多层特征，不是融合的方式，而且先相应做卷积，再相加（其实也是concate的一种方式），模型更新策略可以；
SPLT(ICCV2019) : 用了一个SiameseRPN来做初步的bbox的选择，然后弄了一个embedding网络来验证检测出来的proposal是否靠谱，若是不靠谱，就用还是用Siamese的结构来重新定位search region，再用SiameseRPN来跟踪。是一个长程跟踪的算法，其中三大模块都是分开训练的，分三个模块是长程跟踪中比较经典的做法；
DiMP（ICCV2019）：MD大神的新作，在Atom基础上更加优化的一篇文章，主要提出了一个新的类似合页损失的损失函数，来更加精确定位target，然后把网络的训练弄成端到端的了，没有像Atom一个backbone是固定的，跟Atom一样都是加了一个相关滤波层，使得Siamese类的网络对padding和stride的敏感度小。

MDNET类

MDNet（CVPR2016）
TCNN(ECCV2016)：树型结构的MDNet，不过没有后续工作，浪费空间时间吧；
RT_MDNet（ECCV2018）：使用了RoIAlign来加快网络特征提取，优化损失函数（instance的损失+classify的损失，类内与类间，有点triplet loss的感觉）；
Meta-tracker（ECCV2018）：指导模型在跟踪时的初始化过程，元学习应用，还用了一个标签洗牌操作，不知道管不管用；
DAT（NIPS2018）：利用attention，不过只是将attention作为损失函数的一项，每帧更新模型一次，精度高速度慢；
VITAL（CVPR2018 Spotlight）：把GAN引入，通过对抗学习一个Mask，意在提取一些general的特征，用多个Mask其实就是模拟target的变化，还对样本进行reweighting，平衡不同样本的影响，精度高速度慢；
LSART（CVPR2018 Spotlight）：CNN的特征相关滤波相结合使用的，论文太难懂了；
HART（NIPS2017）：利用了多种注意力机制，还对每种注意力机制都弄了损失函数，还使用了LSTM来做，但是最管用的还是多任务损失；
ANT（AAAI2019）：用了多属性来跟踪，属性代表一些遮挡、尺度变化等，每个属性都有一个branch来编码；
UDT（CVPR2019)：使用无监督的方式做，最巧妙的就是通过前向和反向做，来保证tracker的鲁棒性，还提出了三帧训练的形式，使得目标可以适应各种形式。
StarGAN+MDNet(ICASSP2019): 就是利用StarGAN去生成行人的不同姿态样本，作为艰难的正样本，去对正样本进行扩充，StarGAN和MDNet都是原来就有的框架，作者只是把它们一起用了而已，（其实有点像SiamPRN一样，但是效果很好，而且移植地好）

VGG类？

DSLT（ECCV2018）：提出了一个shrinking loss，有点类似focal loss，但是这篇文章的损失函数只惩罚简单样本，其他样本不改，但是精度比focal loss高，再者就是使用了反卷积做多层特征融合；
UPDT（ECCV2018）：Martin大神的新作，分析了为什么跟踪中较深的网络不管用，并提出了不同的数据增强以及高低层特征融合的方式，值得借鉴把，是一篇比较有指导性的工作。
DEDT（CVPR2018)：看不懂啊，只知道用了一个集成的跟踪器，用多个跟踪器来一起预测结果，训练的时候尽量使得每个分类器的耦合性低，就为了实现这个，他们自己生成耦合性低的样本，来分别训练，然后说是因为每帧都更新，所以结合了时间信息。不过实在太麻烦，还是ANT高明一些。

Attention 类

RASNet：residual+channel+general
DAT: 将attention作为一个损失函数的一个项
MemTracker：Spatial + Channel
SA_Siam : Channel
FlowTrack：Spatial + Channel
HART：Spatial + appearance
TADT：空间+尺度
DensSiam：用了self-attention，其实就是何凯明的non-local features的结构

Multilevel feature（感觉只有在层数比较多的网络才会用到）

SiamRPN++ : conv3+conv4+conv5
SA_Siam：conv4 + conv5
C-RPN：conv3+conv4+conv5
DSLT：用反卷积做，但是只用了两层
MHIT：用了很多层
EAST：用强化学习来决定用那层的特征
UPDT：深度特征+手工特征
SPM-Tracker：conv2 +conv4
ATOM
EDCF：conv2（CACF）+conv5

loss

VITAL ：就是使用了何凯明的focal loss；
RT_MDNet：也不算是focal loss，就是在损失函数上不仅计算了类内的距离，也考虑的类间的距离；
Triple_tracker：三元组损失；
DAT：正则化的空间attention损失；
HART：多种attention损失相加；
DSLT：Shrinking loss
DaSiamRPN：使得loss离distractor越远越好
EDCF：多任务损失
DiMP：类合页损失，使得正负样本之间距离大

多属性，多任务

SiamMask：用视频语义分割的方法和数据来训练
ANT：把遮挡、形变当成属性，多属性学习；
DEDT：用了集成的跟踪器，像Adaboost那样，集成多个分类器来做

多stage

C-RPN：三个stage
ANT：一个stage负责编码各种不同的属性，一个stage负责结合这些属性；
ATOM：一个stage得到bbox，一个stage用来分类；
SPM-tracker：一个stage得到粗糙的表示，另一个stage来区分distractor
EDCF：也是低层的结果作为后面层的输入，然后再调整的过程

时间序列

MEMTracker：LSTM控制；
FlowTracker：光流信息

无监督

UDT：无监督学习

GAN

VITAL：利用GAN来去生成mask，希望mask之后留下来的部分是最discriminate的。
StarGAN：就是用GAN去做数据增强，但是只对行人做了。

贴一张组会汇报时做的图

在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/910567

近几年目标跟踪论文简单分类综述_目标追踪综述性论文

Siamese类

MDNET类

相关滤波

VGG类？

Attention 类

Multilevel feature（感觉只有在层数比较多的网络才会用到）

loss

多属性，多任务

多stage

时间序列

无监督

GAN

贴一张组会汇报时做的图