赞
踩
数据集
AVA数据集为目前行为数据集中背景最复杂、人体目标最多的数据集,是由Google在2018年所发表的一个用于训练动作检测的数据集,该数据集注释430个15分钟电影切片中的80个原子视觉动作,在空间和时间上定位了动作,从而产生了1.62万个动作标签。这个数据中的内容有以下特点:更多的使用原子动作而不是复合动作(如bow、kneel、jump、sleep等)、对于每个人有更多的的时空标注(每个人会同时具有多种行为)、在切片内的标注尽可能的详细(每个切片中的动作种类会尽可能丰富)、物体在跨段中尽可能的连续(对于出现过的人会有ID进行标注)和使用电影来收集尽可能多的动作类别。且视频内人物动作具有无规则性,例如站立、坐下、与他人谈话等。动作类别丰富且具有代表性、普遍性。其动作类型如图1所示:

为了避免网络训练时对同一场景进行过多训练而产生过拟合现象,因此在数据的预处理过程中,通过ffmpeg工具将数据集中的视频时长统一处理成15分钟。处理代码如下:
图2 截取视频代码
通过上述所说,在完成裁剪时长后需要对视频进行抽帧处理,从而实现由连续帧中提取时间信息特征的目的,便于后续对网络模型的训练。因此把视频裁剪完后再裁剪成图片,本文中使用1秒3帧的方式来裁剪,裁剪完后统一存放在myframes文件夹中,便于后续标注处理。
在运行抽帧代码对数据集进行处理后,需要对每帧图片中的人体行为进行行为标注,通过标注的工作才能进行下一步网络的训练以及测试。考虑到所需处理图片数量大,标注时间过长,因此为了减少人工标注时间,本文使用detectron2工具对图片进行自动标注。Detectron2工具由Facebook
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。