赞
踩
为了降低理解成本,我会尽量减少有关数学的知识点,并尽量用类比的方式,帮助你理解一些概念。所以有可能出现不够严谨的情况,如果你有更好的解释,欢迎留言。
Stable Diffusion(稳定扩散)严格说来它是一个由几个组件(模型)构成的系统,而非单独的一个模型。
我以最常见的文生图为例,解释下 Stable Diffusion 的整体架构,和工作原理。
当我们输入一句 prompt 后,比如“Cat, standing on the castle”,Stable Diffusion 会生成一张猫猫站在城堡的图,看似只有一步:
但实际上,整个生成的过程经过三个大的步骤。我会先概括地介绍这三大步骤分别是什么,先让大家对 Stable Diffusion 有一个整体的理解,然后再细讲里面的细节:
如果将以上的三大步骤可视化的话,会是这样:
总结一下,简单理解,就是用户输入了一段 Prompt 指令,机器会按照这个指令,在一个潜空间里,将一张随机图降噪为一张符合指令的图片。
整个过程,与其说 AI 是在「生成」图片,不如称其为「雕刻」更合适。就像米开朗基罗在完成大卫雕像后,说过的一句话那样:雕像本来就在石头里,我只是把不要的部分去掉。
所有图片都存在了一张充满噪点的图片里,AI 只是把不要的部分去掉了。所以如果你用同样是 Diffusion Model 搭建的 Midjourney 话,你会看到如下的过程,首先是一张模糊甚至黑色的图片,然后图片会一步步变得越来越清晰,这就是我前面所说的「降噪」或者「雕刻」的过程。
你可能好奇,为何前面的解释里,Stable Diffusion 最后是直接出图,而不像 Midjourney 那样?实际上,在第二步中,机器会分多次对图进行「降噪」,只是没有将每一次的结果用 Image Decoder 解码成图片,而是只将最后一次结果解码成照片。所以你使用 Stable Diffusion 的时候才不会像 Midjourney 那样看到生成的过程。
既然说到降噪,我们就来展开讲讲整个「降噪」的过程。
首先整个降噪的过程会在一个 Latent Space(潜空间)里进行,然后会进行多 Steps(步)的降噪,你可以对这个 Steps 进行调整,一般越多图片质量也会好,但时间也会越久。当然这个也跟模型有关,Stable Diffusion XL Turbo 就能 1 步出图,耗时不到 1 秒,而且生成的图片质量还很不错。如果我们将这一步过程可视化,类似是这样的(为了更好地解释,我将下方黑色的块都描述成图,本质上它不是图,只是一堆与图像相关的数据):
那 Denoise 里又发生了什么呢?下图是第一个 Denoise 过程的可视化:
上图看上去很复杂,但不要恐惧,我们只要懂加减乘除就能理解这张图:
如果你有用过 Stable Diffusion 的工具,你会发现 Prompt 的输入框有两个,一个是正向的,一个负向的。那负向的 Prompt 是如何生效的呢?用上述的数学方法,简单理解,当输入负向的 Prompt 的时候,也会生成一张噪声图 B2,但此时我们会用正向的 Prompt 生成的噪声图 B1 减去 B2 再减去 C 得出 D,那就意味着最终生成的图片会更加远离 B2,因为减掉了更多与 B2 相关的噪声。
接着我们再来聊下 Latent Space(潜空间)。我在学习这个概念的时候,最大的疑惑就是为何要在潜空间里进行?而不是直接用图片进行去噪?
要解答这个问题,首先要理解什么是潜空间?
潜在空间是指在机器学习和深度学习中,用于表示数据的低维空间。它是通过对原始数据进行编码和降维得到的一组潜在变量。潜在空间的维度通常比原始数据的维度低,因此可以提取出数据中最重要的特征和结构。
看上去很复杂,简单理解就是潜空间会将图片编码成一堆数字,同时对这些数字进行压缩。让我们通过可视化的方式看看这个过程:
图片会先被一个 Image Encoder 编码成一组数据,并被压缩,如果用像素的角度来衡量这个数据压缩的效果,原图可能是一张 512 X 512 的图,压缩后变成了 64 X 64,数据极大地减少了,最后再使用 Image Decoder 还原即可。而这个 Encoder 加 Decoder 的组件,也被称为 Variational Auto Encoder(变分自编码器)简称 VAE 。所以这个 Image Decoder 在一些产品里,也叫 VAE Decoder。
那使用这个技术有什么好处和坏处呢?
好处:
坏处:
在最前面的流程中,我提到过,Text Encoder(文本编译器)会将你输入的 Prompt 编译成一个个的词特征向量。此步骤下会输出 77 个等长的向量,每个向量包含 768 个维度。这些向量里到底有什么用呢?
另外,还有一个更有趣的问题,当我们在 Prompt 里只输入 Cat,并没有在 Prompt 里加上 orange,那为何最后输出的猫是橘色的呢?要回答这些问题,我们需要先理解 Text Encoder 的实现。
目前 Stable Diffusion 常用的 Text Encoder 用的是 OpenAI 开源(opens in a new tab)的 CLIP 模型,全称为 Contrastive Language Image Pre-training(对比语言图像预训练)。我们照例先画个图:
首先,这个 CLIP 也有一个 Text Encoder,会将文本转化为一个特征向量,然后它还有一个 Image Encoder 会将图片也转成各种特征向量。如果这两个向量越近,意味着这个描述,越接近图片的内容;反之越远,则越不相关。
OpenAI 使用了 4 亿组图片文本对,对此模型进行了训练,最后训练出来的 CLIP 模型效果如下图所示。当我们输入图片的描述时,CLIP 能判断出与这个描述最相近的图片是哪张。比如下图中第四行,描述是「一张斑点猫面部照片」,它与纵向第四张图最相关,相似度达到 0.31,与第一张书本的截图相似度只有 0.12。
我们回到 Stable Diffusion,在 Stable Diffusion 里,我们只使用了 CLIP 的 Text Encoder 的部分,因为它能将文本转化成对应文本的特征向量,并且这些特征向量与现实存在的图片会有相关性。
回到前面提到的两个问题,其实他们互为对方的答案
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。