赞
踩
现有的人脸检测方法没有从全局角度考虑检测问题、没有利用多种信息之间的相关性。本文设计了一个深度信息估计模块来提取深度信息(DI)。通过提取图像前景与背景信息的不一致性及局部信息与全局信息(FBI、LGI)的不一致性,以获得更有效的伪造线索。此外,我们设计了基于注意力的多尺度特征提取模块(MsFE),从深度信息、前景背景信息和局部全局信息中充分提取特征。最后,提出了两种基于注意力的特征融合模块(DFF, MFF),实现伪造特征的自适应融合。得到一个三流互补检测器TCSD。
Deepfake的生成过程与相机成像过程完全不同,必然会留下篡改痕迹。在此之前,许多基于手工特征的方法被提出,例如:不可信的镜面反射,不自然的眨眼,头部姿势、边缘拼接痕迹、光流、心跳,嘴唇的动作等等。随着技术的改进这些手工特征都可以被技术手段掩盖。至于早期基于神经网络的方法都比较粗糙。包括MesoNet,XceptionNet ,递归神经网络(RNN)。基于补丁的方法更加关注本地的伪造模式。基于注意力的方法集中于放大有用的特征;同时对于帧的分析工作更加细化,如分析像素与区域之间的关系、时空不一致、3D分解和自洽性等。此外,通过应用模糊和压缩增强,有助于获得一般化的痕迹来检测。当前方法多数集中于单一的线索,如颜色空间伪像,视觉不一致,以及频域伪影.然而,Deepfake技术破坏了视频中包含的多域信息之间的一致性。
一方面,需要挖掘深度伪造检测的新视角。另一方面,是否可以进一步探索图像中包含的多视角信息的相关性。鉴于此,我们设计了一个新颖的框架,专注于挖掘更多的互补特征来检测Deepfake。本文一方面贡献了一个检测的新视角:深度信息DI;另外一方面结合前景-背景信息FBI、局部-全局信息LGI设计出一个高效的多尺度特征提取模块。最终结合两个模块进行检测。
提出了三个互补流的TCSD——DIS、FBIS和LGIS。DIS感知面部结构不一致,FBIS挖掘假面部区域(前景)和真实背景之间的差异,而LGIS利用局部和全局面部外观之间的相关性来挖掘相互作用以捕捉伪像。这三个特征被用来导出用于检测的最终特征。
- 提出多状态深度估计模块。并且遵循多分支模式,允许不同状态下多个互连分支的通信和融合。
- 首先构造标准化的编码解码生成过程,以单个RGB图像作为输入,每个卷积块的输出被视为一个尺度。
- 最后通过残差模块(RB)不同尺度的特征相互作用以导出强调的尺度特征,上述尺度特征是为了获得像素级深度图。
DFF包括三个功能 - 融合DI估计器中的不同状态信息 - 融合FBI - 融合LGI- 多特征融合模块MFF包含两个功能 - 融合眼睛、鼻子、嘴巴信息以获得局部信息(a)
- 融合3个互补信息用于检测特征(b)
其用于从不同的尺度阶段有效地收集重要信息。
DIS中深度估计是一个标准的回归问题,所以我们采用均方误差(MSE)作为损失函数
在分类阶段我们使用全局二元交叉熵作为损失函数:
对每个流分别进行测试,以证明每个框架的有效性
对于每个数据集,训练集、验证集和测试集中的人脸图像的比例被设置为6∶2∶2。为了更好地展示所提出的TCSD的优越性,我们将结果与检测Deepfake的最新方法进行了比较。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。