当前位置:   article > 正文

基于计算机视觉的学生上课姿态识别

基于计算机视觉的学生上课姿态识别

【私信获取源码】

数据集

1.1 AVA数据集介绍

AVA数据集为目前行为数据集中背景最复杂、人体目标最多的数据集,是由Google在2018年所发表的一个用于训练动作检测的数据集,该数据集注释430个15分钟电影切片中的80个原子视觉动作,在空间和时间上定位了动作,从而产生了1.62万个动作标签。这个数据中的内容有以下特点:更多的使用原子动作而不是复合动作(如bow、kneel、jump、sleep等)、对于每个人有更多的的时空标注(每个人会同时具有多种行为)、在切片内的标注尽可能的详细(每个切片中的动作种类会尽可能丰富)、物体在跨段中尽可能的连续(对于出现过的人会有ID进行标注)和使用电影来收集尽可能多的动作类别。且视频内人物动作具有无规则性,例如站立、坐下、与他人谈话等。动作类别丰富且具有代表性、普遍性。其动作类型如图1所示:

ca7f618ed5854f71afafa1c6c6704cc8.png

 

1.2公开数据集处理

为了避免网络训练时对同一场景进行过多训练而产生过拟合现象,因此在数据的预处理过程中,通过ffmpeg工具将数据集中的视频时长统一处理成15分钟。处理代码如下:ce3ff9f60dea4a6683d5bb58ec66d9a8.png

2 截取视频代码

通过上述所说,在完成裁剪时长后需要对视频进行抽帧处理,从而实现由连续帧中提取时间信息特征的目的,便于后续对网络模型的训练。因此把视频裁剪完后再裁剪成图片,本文中使用1秒3帧的方式来裁剪,裁剪完后统一存放在myframes文件夹中,便于后续标注处理。

在运行抽帧代码对数据集进行处理后,需要对每帧图片中的人体行为进行行为标注,通过标注的工作才能进行下一步网络的训练以及测试。考虑到所需处理图片数量大,标注时间过长,因此为了减少人工标注时间,本文使用detectron2工具对图片进行自动标注。Detectron2工具由Facebook

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/article/detail/39716
推荐阅读
相关标签
  

闽ICP备14008679号