CVAE-GAN：通过不对称学习生成细粒度图像

作者：编程挑战者 | 2024-01-17 14:18:14

踩

cvae-gan

文章的主要贡献：

一个CVAE-GAN模型：能够生成细粒度分类的图像。

摘要 Abstract

我们提出了可变的生成对抗网络，这是一个将可变的自动编码器与生成对抗网络相结合的通用学习框架，用于合成细粒度类别的图像，比如某个具体的人的人脸。我们的方法将一幅图像建模为由标签和潜在属性构成的概率模型。通过改变输入到生成模型中的细粒度类别标签，我们可以使用潜在属性向量上随机抽取的值来生成特定类别的图像。我们的方法有两个新的方面：

对于判别网络即分类器，使用交叉熵损失函数，但是对于生成网络，使用了平均差值目标函数，这种不对称的loss函数使GAN的训练更加稳定
使用一个编码器网络来学习潜在空间和真实图像空间的关系，同时使用pairwise特征匹配来保持生成图像的结构

实验使用自然的人脸、花朵和鸟类图像，证明所提出的模型能够生成具有细粒度类别标签的真实和多样的样本。此外，我们还展示了该模型可以被用于其他的任务，例如图像修复、超分辨率，以及为训练更好的人脸识别模型要做的数据增强。

1 介绍 Introduction

构建高效的自然图像生成模型是计算机视觉的一个关键问题。目标是——根据潜在的自然图像分布，通过改变一些潜在的参数，生成多样的真实图像。因此，一个理想的生成模型应该能够捕获潜在的数据分布。这是一个很有难度的任务，因为数据样本集可能包含非常复杂的类别。（？）然而，目前深度卷积神经网络的进展已经有了巨大的进步，产生了一系列的深度生成模型，这主要是由于深层网络在学习表征方面的能力。

在这些现有的工作的成功基础上，我们想要更进一步地生成细粒度类别的图像。例如，我们想要合成特定个体的图像（如下图），或者产生一个特定种类的花朵或鸟类的新图像等等。受到CVAE[14]和VAE/GAN[15]的启发，我们提出了一个通用的学习框架，将变分自动编码器与条件生成过程下的生成对抗网络相结合来解决这个问题。

图1.合成的图像。使用我们的CVAE-GAN模型，在高分辨率下的不同类别。生成的样例是真实和多样的。

然而，我们发现这个简单的组合在实践中是不够的，VAE的结果经常模糊不清，判别器可以轻松地将它们区分为“假”，即使它们作为人脸图像有时看上去效果很棒，梯度消失的问题仍然存在。因此，生成的图像和仅使用VAE的结果很相似。

在这篇文章中，我们提出了一个新的生成器目标。不再使用和判别器网络相同的交叉熵损失，新的目标需要生成器生成数据，使得平均特征和真实数据的 $\l _{2}$ 距离最小。对于多类别的图像生成，一个类别生成的样例也需要和这个类别的真实数据的平均特征相匹配，因为特征距离和可分性是正相关的。这样就一定程度上解决了梯度消失的问题。这种合成损失函数能够部分帮助防止模型崩溃的问题——所有的输出都移动向一个单点，使得GAN的训练更加稳定。

即使使用平均特征匹配会减少模型崩溃的机会，也不能完全解决问题。一旦模型崩溃发生，梯度下降就不能分离相同的那些输出。为了保持生成样本的差异，我们将VAE和GAN的优势结合在一起。使用一个编码器网络来将真实图像和隐向量进行映射。接下来，生成器需要重建原始像素，将原始图像的特征和给定的隐向量进行匹配。这样，我们明确地建立了隐空间和真实图像空间之间的关系，由于这些锚点的存在，生成器被强制发出不同的样本。此外，像素重建loss也对保持结构很有用，例如一条直线或者图像中的面部结构。

像图2的(g)所示，我们的框架由四部分组成：1）编码器网络 $E$ ，将数据样本 $x$ 映射到一个隐表达 $z$ 2）生成网络 $G$ ，给定一个隐向量，生成图像 $x^{'}$ 3）判别网络 $D$ ，区分出真实/虚假的图像 4）分类器网络 $C$ ，测量数据属于的类别概率。这四个部分无缝级联在一起，整个pipeline是端到端训练的。我们将我们的方法命名为CVAE-GAN。

图2. VAE,GAN,VAE/GAN,CVAE,CGAN,PPGN和提出的CVAE-GAN的结构说明。 $x$ 和 $x^{'}$ 是输入和生成的图像， $E,G,C,D$ 分别是编码器，生成器，分类器和判别器网络。 $z$ 是隐向量。 $y$ 是一个二元的输出，表示真实的/合成的图像。 $c$ 是条件，例如属性或类别标签。

一旦CVAE-GAN被训练好，就可以在不同的应用中使用，例如图像生成、图像修复和属性变化。我们的方法估计了输入图像的一个好的表示，生成的图像会更加真实。CVAE-GAN的表现超过了CVAE,CGAN和其他前沿方法。与GAN相比，我们提出的框架训练更加简单，converge更快速，并且在训练步骤中更稳定。在实验中，进一步展示了我们的模型合成的图像可以被应用在其他任务中，例如为训练更好的人脸识别模型的数据增强。

2 相关工作 Related Work

传统观点和对生成式模型的早期探索，例如主成分分析（PCA）和高斯混合模型（GMM），都是假定数据的一个单一形式。它们在对不规律分布的复杂模式进行建模时会比较困难。更近一些的工作，例如隐马尔科夫模型（HMM），马尔可夫随机域（MRF），以及有限Boltzmann机（RBMs），区分训练生成模型，由于缺乏有效的特征表示，限制了它们在纹理patch、数字或对齐良好的面上的结果。

近来在深度生成模型方面有很多进展[14,12,8,31,29,15,4,33,6]。因为深度层次结构允许从数据中捕获复杂结构，这些所有的方法都显示出，能够生成比传统生成式模型更自然、真实的图像。在这些方法之中，有三个主要的主题：可变自编码器（VAE）[12,31]，生成式对抗网络（GAN）[8,29,33]和自回归[14]。

生成式对抗网络（GAN）是另一种流行的生成式模型。它同时训练两个模型：一个生成模型，用于合成样本，以及一个判别模型，用于区分自然的和合成的图像。然而，GAN模型在训练中难以收敛，GAN生成的样本常常和天然图像相差甚远。目前，许多工作已经在改善生成的样本的质量上做出了尝试。例如，Wasserstein GAN（WGAN）将Erth Mover距离作为训练GANs的目标，McGAN使用均值和协变特征匹配。他们需要限制判别器的参数范围，这将降低判别器的强度。Loss-Sensitive GAN学习一个loss函数，这可以量化生成样本的质量，使用这个loss函数来生成高质量的图像。这里也有一些工作试着将GAN与VAE相结合，例如VAE/GAN和对抗自编码器。这启发了我们的工作。

VAEs和GANs也可以被训练用于条件生成，例如CVAE和CGAN。通过额外的条件，它们可以处理一对多映射的问题。目前有许多基于CVAE和CGAN的有趣工作，包括条件人脸生成、Attribute2Image，文字合成图像，从基准图像预测，以及条件图像合成。

生成式ConvNet，证明了生成式模型可以从常用的判别式ConvNet中导出。Dosovitskiy等人和Nguyen等人介绍了一种从一个训练好的分类模型中提取出的特征来生成高质量图像的方法。PPGN通过使用梯度上升，和在生成器的隐空间先验，在生成样本方面表现出色。

自回归关注一个不同的idea。它使用自回归连接来一个一个像素地建模图像。它的两个变形，PixelRNN和PixelCnn，也提供了很好的样例。

我们的模型和这些所有的模型都不同。像图2中介绍的，我们将提出的CVAE模型的结构和这些所有模型相比较。除了结构上的差异外，更重要的是，我们利用了统计和两两特征匹配的优点，使得训练过程收敛更快、更稳定。

3 Our Formulation of CVAE-GAN

在这一节中，我们介绍了提出的CVAE-GAN网络。如图3所示，我们提出的方法包括四个部分：1）编码器网络E；2）生成式网络G；3）判别网络D；4）分类网络C

网络E和G的函数和条件变分自编码器（CVAE）的相同。编码器网络E将数据样本 $x$ 通过一个学习到的分布 $P(z \mid x,c)$ 映射到一个隐表示 $z$ ，其中c是数据的类别。生成式网络G通过从一个学习到的分布 $P(x \mid z,c)$ 来生成图像 $x^{'}$ 。网络G和D的函数和生成对抗网络（GAN）中的也相同。网络G尝试通过判别式网络D给定的梯度来学习真实数据。网络C的函数是用来衡量后验 $P(c \mid x)$ 的、

然而，VAE和GAN的简单结合是不够的。目前的工作显示，GAN的训练中，网络G会遇到梯度消失或不稳定的问题。因此，我们只保持网络E,D和C的训练过程与原始的VAE和GAN相同，同时为网络G提出一个新的均值特征匹配目标，来改善原始GAN的稳定性。

即使使用了均值特征匹配，仍然存在模型崩溃的风险。所以我们使用编码器网络E和生成式网络G来获得一个从真实样本 $x$ 到合成样本 $x^{'}$ 的映射。通过使用像素wise的 $\l _{2}$ loss和pair-wise的特征匹配，生成模型被强制发出不同的样本，同时样本是保持结构的。

在接下来的小节中，我们从描述基于GAN的均值特征匹配开始（Section 3.1）。接下来，我们将展示均值特征匹配也可以被用在条件图像生成任务中（Section 3.2）。在那之后，介绍通过使用一个额外的编码器网络的pair-wise的特征匹配（Section 3.3）。最后，我们分析了提出的方法的目标，提供训练pipeline中的实现细节（Section 3.4）

6 结论 Conclusion

在这篇文章中，我们提出了一种新的CVAE-GAN模型，用于生成细粒度分类的图像。在三种不同数据集上的优异性能证明了生成各种对象的能力。模型能够支持多种应用，包括图像生成、属性变化、图像修复，以及为了训练更好的人脸识别模型而进行的数据增强。我们将来的工作是，探索如何生成一个未知类别的图像，例如生成一个训练集中不存在的人的人脸图像。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/40977