基于计算机视觉的学生上课姿态识别

作者：思考机器2 | 2024-01-15 16:05:39

踩

基于计算机视觉的学生上课姿态识别

【私信获取源码】

数据集

1.1 AVA数据集介绍

AVA数据集为目前行为数据集中背景最复杂、人体目标最多的数据集，是由Google在2018年所发表的一个用于训练动作检测的数据集，该数据集注释430个15分钟电影切片中的80个原子视觉动作，在空间和时间上定位了动作，从而产生了1.62万个动作标签。这个数据中的内容有以下特点：更多的使用原子动作而不是复合动作（如bow、kneel、jump、sleep等）、对于每个人有更多的的时空标注（每个人会同时具有多种行为）、在切片内的标注尽可能的详细（每个切片中的动作种类会尽可能丰富）、物体在跨段中尽可能的连续（对于出现过的人会有ID进行标注）和使用电影来收集尽可能多的动作类别。且视频内人物动作具有无规则性，例如站立、坐下、与他人谈话等。动作类别丰富且具有代表性、普遍性。其动作类型如图1所示：

1.2公开数据集处理

为了避免网络训练时对同一场景进行过多训练而产生过拟合现象，因此在数据的预处理过程中，通过ffmpeg工具将数据集中的视频时长统一处理成15分钟。处理代码如下：

图2 截取视频代码

通过上述所说，在完成裁剪时长后需要对视频进行抽帧处理，从而实现由连续帧中提取时间信息特征的目的，便于后续对网络模型的训练。因此把视频裁剪完后再裁剪成图片，本文中使用1秒3帧的方式来裁剪，裁剪完后统一存放在myframes文件夹中，便于后续标注处理。

在运行抽帧代码对数据集进行处理后，需要对每帧图片中的人体行为进行行为标注，通过标注的工作才能进行下一步网络的训练以及测试。考虑到所需处理图片数量大，标注时间过长，因此为了减少人工标注时间，本文使用detectron2工具对图片进行自动标注。Detectron2工具由Facebook

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/article/detail/39716