赞
踩
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)
https://arxiv.org/abs/2112.10752
GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models
GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model
贡献:大大减少计算复杂度、提出了cross-attention的方法来实现多模态训练,使得条件图片生成任务也可以实现
Latent Diffusion Models整体流程如图:
论文将这个方法称之为感知压缩(Perceptual Compression)。个人认为这种将高维特征压缩到低维,然后在低维空间上进行操作的方法具有普适性,可以很容易推广到文本、音频、视频等领域。
在潜在表示空间上做diffusion操作其主要过程和标准的扩散模型没有太大的区别,所用到的扩散模型的具体实现为 time-conditional UNet。但是有一个重要的地方是论文为diffusion操作引入了条件机制(Conditioning Mechanisms),通过cross-attention的方式来实现多模态训练,使得条件图片生成任务也可以实现。
下面我们针对感知压缩、扩散模型、条件机制的具体细节进行展开。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。