赞
踩
OpenMMlab是一个开源项目,主要面对深度学习时代计算机视觉算法的研发,提供一整套算法框架和工具体系。
总体架构:
可以理解为对每一个像素进行分类
应用领域:无人驾驶汽车、遥感、医疗影像分析
行为识别——what:1. 识别视频片段中出现的动作 2. 进行视频的分类
时序动作检测——when + what:在长视频中定位特定动作出现的时间段,并对动作进行分类
时空动作检测——where + when + what:识别并且定位视频中出现的人和动作。1. 时间段 2. 识别并定位视频中的人 3. 动作类型
对于视频的理解:
视频 = 空间 + 时间 = 外观 + 运动
其中,运动还包括帧间运动——光流
与图像的区别:1. 多了时间维度 2. 在内容上反映了变化和运动
发展历程
(1)从手工特征到卷积网络(2014之前)
Dense Trajectories(2011) & Improved DT(2013):基于传统视觉方法构建运动特征,没有使用深度学习技术。
DeepViedo(2014):使用卷积网络,基于图像帧进行动作预测,并考虑融合帧间信息。
(2)从单流到双流(2014之后)
(3)大规模视频数据集出现(2017年之后)
视频分析是数据密集型任务。在数据的推动下,基于3D卷积网络的方法逐渐取代基于2D卷积网络的方法称为主流。另一方面,长视频数据集(如Activity Net,HACS)逐渐出现,也推动了时序检测、时空检测等技术的发展。
(4)从2D卷积到3D卷积(2017年之后)
(5)压缩3D网络(2018之后)
(6)更大的数据(2019年之后)
(7)弱监督学习(2019年之后)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。