赞
踩
推荐阅读:
VAE全面理解
生成模型——变分自编码器VAE
从 GAN VAE 到 CVAE-GAN

变分生成对抗性网络,这是一个将变分自动编码器与生成对抗性网络相结合的通用学习框架,用于合成精细的图像,例如类别中特定人员或对象的脸。 我们的方法将图像建模为概率模型中标签和潜在属性的组成。 通过改变输入到生成模型中的细粒度类别标签,我们可以在特定类别中生成图像,并在潜在属性向量上随机绘制值。 我们的方法有两个新的方面。 首先,我们对判别网络和分类器网络采用交叉熵损失,而对生成网络则采用平均差异目标。 这种非对称损失函数使GAN训练更加稳定。【提出一种网络结构】我们进一步表明,我们的模型可以应用于其他任务,如图像修复、超分辨率和数据增强,以训练更好的人脸识别模型。 【使用编码器网络学习潜在空间的数据分布】根据潜在的自然图像分布改变一些潜在参数来生成不同的真实图像。 因此,需要一个期望的生成模型来捕获底层数据分布。 这通常是一项非常困难的任务,因为图像样本的集合可能位于非常复杂的流形上。 然而,深卷积神经网络的最新进展催生了一系列深层生成模型[14,12,8,31,29,34,15,4,33,6]这些模型取得了巨大的进展,这主要是由于深度网络在学习表示中的能力。【深度学习网络可以捕获真实图像的底层分布】
- 合成图像使用我们的CVAE-GAN模型在高分辨率(128×128)的不同类别。 生成的样本在类中是真实的和多样化的。
求生成器生成数据,使平均特征与真实数据的ℓ2距离最小。 对于多类图像生成,一个类别的生成样本也需要匹配该类别真实数据的平均特征,因为特征距离和可分性呈正相关。 在一定程度上解决了梯度消失问题。 这种非对称损失函数可以部分地帮助防止所有输出向单点移动的模式崩溃问题,使Gan的训练更加稳定。【提出非对称损失函数,使训练更加稳定。】模式坍塌的机会,但并不能完全解决问题。 一旦发生模式坍塌,梯度下降就无法分离相同的输出。 为了保持生成样本的多样性,我们利用VAE和GAN的结合。 我们使用编码器网络将真实图像映射到潜在向量。 然后要求生成器重建原始像素,并将原始图像的特征与给定的潜在向量匹配。 这样,我们就明确地建立了潜在空间与真实图像空间之间的关系。 由于这些锚点的存在,生成器被强制发射不同的样本。 此外,像素重建损失也有助于维持结构,如图像中的直线或面部结构。【VAE和GAN结合,可以解决模式坍塌。】

图2. 说明VAE[12,31]、GAN[8]、VAE/GAN[15]、CVAE[34]、CGAN[18]、PPGN和提出的CVAE-GAN的结构。 其中x和x‘是输入和生成的图像。 E、G、C、D分别是编码器、生成网络、分类网络和判别网络。 z是潜在向量。 y是表示真实/合成图像的二进制输出。 c是条件,如属性或类标签。
图像生成、图像修复和属性变形。 我们的方法估计了输入图像的良好表示,生成的图像似乎更真实。 我们表明,它的性能优于CVAE、CGAN和其他最先进的方法。 与GAN相比,该框架在训练阶段更容易训练和收敛速度更快、更稳定。 在我们的实验中,我们进一步表明,从我们的模型合成的图像可以应用于其他任务,如数据增强训练更好的人脸识别模型。【CVAE-GAN效果好,而且训练好的网络可以用于其他领域,比如图像生成、图像修复、属性变换。训练阶段收敛快,更稳定。我们的框架生成的图像可以用于其他任务。】GAN模型在训练阶段很难收敛,GAN生成的样本往往远离自然。 最近,许多工作试图提高生成的样本的质量。 例如,WassersteinGAN(WGAN)[2]使用地球Mover距离作为训练GANs的目标,而McGAN[20]使用均值和协方差特征匹配。 它们需要限制鉴别器的参数范围,这将降低鉴别能力。 损失敏感GAN[28]学习一个损失函数,它可以量化生成的样本的质量,并使用这个损失函数生成高质量的图像。 还有一些方法试图结合GAN和VAE,例如VAE/GAN[15]和对抗性自动编码器[17]。 它们与我们的工作密切相关,并在一定程度上激发了我们的工作。【一些试图去提高GAN生成样本质量的方法】自动回归[14]遵循不同的想法。 它使用自动回归连接对图像逐像素建模。 它的两个变体,像素RNN[41]和像素CNN[26],也产生了优秀的样本。
图3. 说明我们的网络结构。 我们的模型包括四个部分:1)编码器网络E;2)生成网络G;3)分类网络C;4)鉴别网络D。详情请参阅第3节。
梯度消失或不稳定问题。因此,我们只保持网络E、D和C的训练过程与原始VAE[12]和GAN[8]相同,并提出了一个新的生成网络G的平均特征匹配目标,以提高原始GAN的稳定性。【保持其余不变,提出新G的平均特征匹配目标提高原始GAN的稳定性】利用像素级ℓ2损失和成对特征匹配,实现了生成模型的多种样本发射和结构保持样本的生成。【为了解决模式坍塌,引入像素级损失和成对特征匹配】

网络G的训练过程会不稳定。 最近的工作也[1,2] 表明训练GAN往往需要处理G的不稳定梯度。为了解决这个问题,我们建议对生成器使用平均特征匹配目标。 目标要求合成样品特征的中心,以匹配真实样品特征的中心。 设fD(X)表示鉴别器中间层上的特征,G然后试图最小化损失函数。【对生成器G使用平均特征匹配目标解决G的梯度不稳定问题】


使用平均特征匹配可以防止所有输出向单点移动,从而减少模式崩溃的可能性,但它并不完全解决这个问题。 一旦模式崩溃发生,生成网络就会为不同的潜在向量输出相同的图像,因此梯度下降将无法分离这些相同的输出。 此外,尽管生成的样本和真实样本具有相同的特征中心,但它们可能具有不同的分布。添加了一个编码器网络E来获得从真实图像x到潜在空间z的映射。 因此,我们明确地建立了潜在空间与真实图像空间之间的关系。【为了解决模式坍塌,其他人提出的方法和我们提出的方法】

我们的方法的目标是最小化以下损失函数:

其中每个术语的确切形式都在1-6中给出。上式的每一项都是有意义的。 LKL只与编码器网络E有关,它表示潜在向量的分布是否处于期望状态。 LG、LGD和LGC与生成网络G有关,它们分别表示合成的图像是否与输入训练样本、真实图像和同一类别内的其他样本相似。LC与分类网络C有关,它表示网络对不同类别图像进行分类的能力,LD与鉴别网络有关,它表示网络在区分真实/合成图像方面有多好。 所有这些目标是相辅相成的,最终使我们的算法能够获得优越的结果。 整个训练过程在算法1中描述。 在我们的实验中。 我们经验性地设置λ1=3,λ2=1,λ3103和λ4103。【给出总损失函数的含义】

图4. 不同生成模型的示例的结果。 蓝色点为实点,红色点为生成点。
a)真实的数据分布,就像一个“环”。
b)传统GAN、WGAN和平均特征匹配GAN在不同迭代中生成的点。
【多层感知器】,有3个隐藏层,分别有32、64和64个单元。 鉴别器D也是一个MLP,有3个隐藏层,分别有32、64和64个单元。 我们使用RMSProp【前向均方根梯度下降算法】和固定学习率0.00005的所有方法。 我们对每个模型进行了2M迭代训练,直到它们都收敛为止。 每个模型在不同迭代次数下的生成样本在图4中给出。从结果可以观察到:1)对于传统的GAN(图4(B)中的第一行),生成的样本只位于真实数据分布的有限区域,这就是所谓的模式崩溃问题。 这个问题在培训过程中总是存在的。 2)对于WGAN(图4(B)中的第二行),它不能在早期迭代中学习真实的数据分布,我们认为这个问题是由夹紧权重技巧引起的,这影响了D区分真实样本和假样本的能力。 我们还试图改变钳位值来加速训练过程,发现如果值太小,就会引起梯度消失问题。 如果太大,网络就会发散。 3)第三行显示了基于GAN的特征匹配结果。 它正确地学习最快的真实数据分布。【对于图4做了解释,对比了GAN、MGAN和FMGAN的学习数据分布的能力,说明了提出的均值特征匹配方法的有效性】
图5.在FaceScrub [21]、102个类别花卉数据集[24]和CUB-200[43]数据集上随机生成的样本的比较。 从一个类别a)9个随机真实图像。 b)CVAE的结果是模糊的,不能保持类别的同一性,c)来自传统CGAN的结果,它失去了多样性和结构信息。 d)结果从我们的平均特征匹配CGAN,显示出不同的结果,但也失去了结构信息。 e)我们的CVAE-GAN的结果,显示了现实的,多样性和类别保持的结果。
观察到由CVAE生成的图像通常是模糊的。 对于传统的CGAN,一个类别内的变化很小,这是由于模式崩溃。 对于FM-CGAN,我们观察到清晰的图像,保留了良好的身份,但有些图像失去了物体的结构,如人脸的形状。 另一方面,由所提出的CVAE-GAN模型生成的图像看起来真实和清晰,并且彼此之间没有很大的差异. 特别是视点和背景色。 我们的模型也能够保留身份信息。 表明了所提出的CVAE-GAN方法的强度。
可鉴别性、多样性和现实性。我们使用人脸图像进行这个实验。 首先,我们从CVAE、CGAN、FM-CGAN和CVAE-GAN模型中随机生成53k个样本(每个类100个)进行评估。为了测量可鉴别性,我们在真实数据上使用预先训练的人脸分类网络。 在这里我们使用GoogleNet[36]。 通过这个训练模型,我们评估了每个方法生成的样本的前1位精度。 结果见表1。 我们的模型达到了最好的顶级-1精度,与其他生成模型有很大的差距。 这证明了该方法的有效性。
表1. 不同方法生成图像质量的定量结果。 详情请参阅5.2节


图7. 使用我们提出的模型CVAE-GAN-1∼10进行图像修复的结果显示了迭代1∼10的结果。

图8. 不同生成器G之间的可视化比较,每个训练的损失组合不同。

数据增强的结果
生成未知类别的样本,例如训练数据集中不存在的人的面部图像。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。