赞
踩
Clip模型:是Contrastive model的一种,可以很鲁棒地捕获语义和风格
本文提出一个2-stage model:一个prior模型,给出文字,生成一个CLIP图像特征;一个decoder根据图像特征生成图像
CLIP
diffusion
our work:首先训练了一个diffusion decoder来反转CLIP图像encoder,这个反转器是non-deterministic的,对于一个给定的图像特征可以生成多个图片
相比起GAN,CLIP很大的一个优势是能够通过语音信息对图像进行修改
整体示意图
先用CLIP训练好文本和图像的联合表示空间,给定文本和文本的图像,出文本特征和图像特征,训练好之后它就frozen了不动了
再用clip处理出来的text特征进入prior模型生成img特征,再用diffussion decoder得到最终的图像
对于image x,对应的text为y,CLIP生成的image embedding为 z i z_i zi,生成的text embedding为 z t z_t zt,
p r i o r P ( z i ∣ y ) prior\ \ P(z_i|y) prior P(zi∣y):能够利用text y生成CLIP image embeddings z i z_i zi
d e c o d e r P ( x ∣ z i , y ) decoder\ \ P(x|z_i,y) decoder P(x∣zi,y):能够根据 z i z_i zi(和某些时刻可能用到text y)生成图像x
于是整体流程be like:
P ( x ∣ y ) = ① P ( x , z i ∣ y ) = ② P ( x ∣ z i , y ) P ( z i ∣ y ) P(x|y)\mathop{=}\limits^① P(x,z_i|y)\mathop{=}\limits^②P(x|z_i,y)P(z_i|y) P(x∣y)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。