赞
踩
| paper | 发表地方 | 代码链接 | Nusnenes_test(NDS) | Nuscenes_val(NDS) |
|---|---|---|---|---|
| BEVFormer | ECCV2022 | pytorch代码 | 0.569 | 0.517 |
| BEVFormer v2 | CVPR2023 | - | 0.634 | 0.529 |
一、Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers

出发点: 之前基于BEV的方法需要利用深度信息将图像转换到BEV空间,但是不准确的深度信息会导致BEV特征位置不正确,从而影响最后的性能。同时为了更好的搭建时间和空间上特征的交互,作者提出了一种不需要深度信息就可以得到BEV Feature,同时该特征可以很好的融合空间和时序特征的方法。
框架流程: 文章首先将多视角的图像特征输入到Backbone(ResNet-101)中来获取不同视角的图像特征,之后利用所设计的Transformer结构来获取BEV特征,最后将该BEV特征输入到任务头中进行具体任务的 处理。
所设计的Transformer包含三个部分:BEV Queries的生成,空间跨模态注意力,时序自注意力
二、BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision

出发点: 首先作者观察到利用ConvNeXt-XL作为backbone和利用VoVNet-99作为backbone的效果差不都,但是前者的参数量是后者的3.5倍。这两个backbone不同的就是前者只是基于2d图像进行训练,后者还是利用DDAD-15M数据集进行预训练,说明了引入自动驾驶数据可以帮助预训练模型获取3D感知的能力。所以作者设计了一个基于透视图的3D辅助头,来帮助Backbone构建3D感知的能力。
流程: 首先输入多个视角的数据到Backbone中获取到多个视角的特征,之后将该特征分别输入到所设计的透视3D检测头中进行初步的分类和回归,同时让Backbone具有3D感知能力,之后利用BEVFormer中所设计的时间和空间注意力模块来获取BEV特征,作者对时间注意力模块进行了修改,最后将透视3D感知头输出的3D建议框编码成reference point,并与预先定义的query embedding生成的Reference point构建成混合reference point输入到DETR头中做第二次分类和回归。
模型主要为3部分:透视监督,Ravamped时序编码,混合query编码


Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。