赞
踩
目录
其中G,D 是多层感知机,也就是我们第一部分先验知识所介绍的内容
通过使用批标准化(Batch Normalization)和Leaky ReLU激活函数,DCGAN改进了训练的稳定性和收敛速度。
在CGAN中,生成器,判别器,损失函数都进行的小幅度的改动,
以基于图像边缘生成图像为例,介绍Pix2Pix的工作流程:
首先输入图像用y表示,输入图像的边缘图像用x表示,Pix2Pix在训练时需要成对的图像(x和y)。
x作为生成器G的输入(随机噪声z在图中并未画出,去掉z不会对生成效果有太大影响,但假如将x和z合并在一起最为G的输入,可以得到更多样的输出)得到生成图像G(x)。
然后将G(x)和x基于通道维度合并在一起,最后作为判别器D的输入得到预测概率值,该预测概率值表示输入是否是一对真实图像,概率值越接近1表示判别器D越肯定输入是一对真实图像。
真实图像y和x也基于通道维度合并在一起,作为判别器D的输入得到概率预测值。因此判别器D的训练目标就是在输入不是一对真实图像(x和G(x))时输出小的概率值(比如最小是0),在输入是一对真实图像(x和y)时输出大的概率值(比如最大值是1)。
生成器G的训练目标就是使得生成的G(x)和x作为判别器D的输入时,判别器D输出的概率值尽可能大,这样就相当于成功欺骗了判别器D。
相较于前几个GAN, Pix2Pix 的输入通常为图片,而不再是噪音或条件,它专为图像到图像的转换任务设计,如将草图转换为照片、黑白图像上色、街景转换为地图等。
由于是条件GAN,Pix2Pix需要成对的图像数据进行训练(即输入图像和目标图像的对)
CycleGAN用于未配对图像之间的风格转换,其特点是使用两个生成器和两个判别器进行循环一致性训练。
CycleGAN中的每个判别器通常只接收一张图片作为输入。这些判别器独立地评估各自域(domain)中的图片是否真实。例如,如果一个CycleGAN被训练来将马转换成斑马,那么一个判别器将只处理马的图片,另一个只处理斑马的图片。
使用生成器 G 将域 X 中的图像 x 转换为看起来像域 Y 中图像的 y^ = G(x)。
使用生成器 F 将域 Y 中的图像 y 转换为看起来像域 X 中图像的 x^ = F(y)。
判别器 DY 学习区分域 Y 中的真实图像 y 和生成的图像 y^。
判别器 DX 学习区分域 X 中的真实图像 x 和生成的图像 x^。
对于通过 G 生成的图像y^,使用 F 再将 y^ 转换回域 X 的 x~=F(y^)。理论上,x~ 应接近原始图像 x。
对于通过 F 生成的图像 x^,使用 G 再将 x^ 转换回域 Y 的 y~=G(x^)。理论上,y~ 应接近原始图像 y。
CycleGAN包括两个生成器,分别记为 G 和 F:
与两个生成器相对应,CycleGAN还包括两个判别器,分别记为 DX 和 DY:
CycleGAN 的核心思想是循环一致性(cycle consistency),这意味着如果一个图像从域 X 转换到域 Y,然后再从域 Y 转换回域 X,最终得到的图像应该与原始图像尽可能相似。这一点通过循环一致性损失来实现:
损失函数
以下是几种可以生成文本或数据文件的GAN变体:
TextGAN:
SeqGAN:
RankGAN:
LeakGAN:
AIGC(AI生成内容)通常涉及使用多种机器学习和深度学习技术来自动化内容的创作过程。以下是AIGC中常用的几种技术:
自然语言处理(NLP):
生成对抗网络(GANs):
变分自编码器(VAEs):
强化学习:
Transformer模型:
参考链接:CycleGAN的基本原理以及Pytorch框架实现-CSDN博客
https://www.cnblogs.com/qiynet/p/12304004.html
GAN原理-听不懂不要钱,哦对,本来我也不要钱_哔哩哔哩_bilibili
GAN原论文网盘:https://pan.baidu.com/s/1xsSk3KSSkqx5xwnVRq6JnA
提取码:78w7
GAN汇报PPT:https://pan.baidu.com/s/1PUFK8pKVjTzhneA6Ugq2jQ
提取码:a7ob
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。