赞
踩
GAN是当今最流行的图像生成模型之一; 我们可以在很多论文中看到用不同的GAN生成的清晰又逼真的图像。然而,如果仅用肉眼来对图像质量进行主观评价,显然不能科学地评估一个模型的性能,我们需要用恰当的方法来定量地衡量GAN的生成能力,准确地刻画生成样本的质量和多样性,度量生成分布与真实分布之间的差异。目前我们往往通过IS (Inception Score)、FID ( Frechet Inception Distance )对生成样本的质量和多样性进行评估。
Is常被用来评价生成图像的质量,它名字中的Inception来源于InceptionNet,因为计算IS时需要用到一个 在ImageNet数据集上预训练好的Inception-v3分类网络。IS实际上是在做一个KL散度计算,具体公式为
其中,p(y|x)是指对一张给定的生成图像x,将其输入预训练好的Inception-v3分类网络后输出的类别概率; p(y)则是边缘分布,表示对于所有的生成图像来说,这个预训练好的分类网络输出的类别的概率的期望。如果生成图像中包含有意义且清晰可辨认的目标,则分类网络应该以很高的置信度将该图像判定为一个特定的类别,所以p(y|x)应该具有较小的熵。此外,要想生成图像具有多样性,p(y)就应该具有较大的熵。如果p(y)的熵较大,p(y|x)熵较小,即所生成的图像包含了非常多的类别,而每一张图像的类别又明确且置信度高,此时p(y|x)与p(y)的KL散度很大。可以看出,IS并没有将真实样本与生成样本进行比较,它仅在量化生成样本的质量和多样性。
FID为了弥补IS的不足,加入了真实样本与生成样本的比较。它同样是将生成样本输入到分类网络中,不同的是,FID不是对网络最后一层的输出概率p(y|x)进行操作,而是对网络倒数第二层的响应即特征图进行操作。具体来说,FID是通过比较真实样本和生成样本的特征图的均值和方差来计算的:
其中,和
分别表示真实样本的均值和协方差矩阵,
和
和分别表示生成样本的均值和协方差矩阵,Tr(.)表示矩阵的迹。FID值越低,表明生成样本与真实样本的统计量越接近。然而,FID将特征图近似为高斯分布,计算均值和方差的方式太过相植,无法实现对图像细节的评估。
IS和FID是目前 GAN在图像领域中使用最为广泛的两种评估方法。IS与FID实现了对GAN生成能力的定量评估,但它们都是对整体表现的刻画,无法从多样性、质量等角度对单个生成成样本进行独立的衡量。另外, 它们都依赖于用ImageNet预训练的分类网络,对其他类型的数据集(如面部图像或医学成像数据)不太适合。
除了IS和FID,还有其他一些评估GAN生成能力的方法,如模式分数(Mode Score )、最大均值差异、最近邻双样本检验( C2ST) 、切片W-距离( Sliced Wassecrtein Distance, SWD)。
来源:百面深度学习
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。