赞
踩
event camera:
本文提出RAM网络实现传统相机和事件相机的单目深度估计。传统相机对静止场景捕捉更加完全(低频完整)、事件相机只编码视觉信号的变化部分(高频稀疏),所以作者设计的Recurrent Asynchronous Multimodal (RAM) network兼顾了两者特性,最终功能得到了连续的、稠密的单目深度图。
RAM:
我们希望融合来自N个传感器的数据,这些传感器以稳定增加的时间戳
t
j
t_j
tj提供测量。在每个时间戳
t
j
t_j
tj时,传感器
k
j
k_j
kj
∈
\in
∈{1,2,…,N}提供的测量为
x
k
j
(
t
j
)
x_{kj}(t_j)
xkj(tj),我们因此要将一系列的测量
{
x
k
j
(
t
j
)
}
j
=
1
T
\{x_{kj}(t_j)\}_{j=1}^T
{xkj(tj)}j=1T融合起来。
其中 θ \theta θ是RAM网络的参数。
本文在编码器的不同scale中提取中间特征。
提取到的中间特征 s k j s_{k_j} skj有以下性质:①从不同传感器提取到的特征可能以任何顺序出现在序列中(异步);②特征之间的时间间隔随时间会发生变化(data rates会变化)。
使用convGRU来将状态结合起来。
在每个传感器的每个scale都有。
更新方程:
f、g : 单个卷积+sigmoid ; ϕ \phi ϕ : 卷积+tanh
从不同传感器中首先映射到合适的空间以便于和 ∑ j \sum_j ∑j进行融合,之后状态组合器被顺序地应用,当某个传感器的测量可得的时候进行改变。
因此可以产生一系列 { Σ j } j = 1 T \{\Sigma_j\}_{j=1}^T {Σj}j=1T
Event相机包括独立的像素u,这个像素对log brightness signal L(u, t)作出反应。如果和上一个event相比,log brightness的变化超过阈值C,在像素点 u = ( x k , y k ) T u=(x_k, y_k)^T u=(xk,yk)T一个新的event e k = ( x k , y k , t k , p k ) e_k = (x_k, y_k, t_k, p_k) ek=(xk,yk,tk,pk)会被触发。其中 p k ∈ { − 1 , + 1 } p_k \in \{−1, +1\} pk∈{−1,+1}, 具体取值决定于亮度变化的方向。故一个polarity为 p k p_k pk的事件在像素点 u k u_k uk,时间 t k t_k tk被触发 ⟺ \iff ⟺ Δ L ( u k , t k ) = p k ( L ( u k , t k ) − L ( u k , t k − Δ t k ) ) ≥ C ΔL(u_k, t_k) = p_k (L(u_k, t_k) − L(u_k, t_k − Δt_k)) ≥ C ΔL(uk,tk)=pk(L(uk,tk)−L(uk,tk−Δtk))≥C
events被转换为固定大小的tenser。
在时间
Δ
T
=
t
N
−
1
−
t
0
ΔT =t_{N−1} − t_0
ΔT=tN−1−t0中的输入events
ε
=
{
e
i
}
i
=
0
N
−
1
\varepsilon =\{e_i\}_{i=0}^{N-1}
ε={ei}i=0N−1 被转换为voxel grid: dimensions:H × W,以及B个temporal bins(给定固定数量的 bin B,原始事件序列被分成 B 个连续的窗口
实验中设置B=5
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。