赞
踩
DALLE3的核心:如何通过更好的文本标注让图像生成质量提升
更糟糕的是,在互联网上找到的字幕通常根本不正确;描述图像的切向相关细节。例如,在通常用于生成图像标题的替代文本中经常会发现广告。
用于预测文本的传统语言模型:
本文的图像标注器:
图像有数千个像素值组成,因此需要一个压缩的表示空间,CLIP就提供了这一点
L ( t , i ) = ∑ j l o g P ( t j ∣ t j − k , . . . , t j − 1 ; z j ; F ( i ) ; Θ ) L(t,i)=\sum_j logP(t_j|t_{j-k},...,t_{j-1};z_j;F(i);\Theta) L(t,i)=j∑logP(tj∣tj−k,...,tj−1;zj;F(i);Θ)
作者训练了两种标注模式:
作者在评估生成文本标注对模型性能的影响时,主要集中讨论了两个问题:
- 使用每种类型的合成标注对性能的影响。 (长标注、短标注)
- 合成标注与真实标注的最佳混合比例。
考虑到图像标注器会出现过拟合现象(过度拟合数据集中的分布规律),作者将合成标注和真实标注进行混合。混合发生在数据采样时,文章会以固定的百分比机会随机选择合成标注和真实标注。
文章采用的评估指标:CLIP 分数
CLIP 分数与文本图像相似度有很强的相关性
CLIP分数的计算方式:
作者设计了三个不同的模型:
对于每个模型,作者分别使用真实标注(左图) 和描述性合成标注(右图) 进行了两次评估计算:
结果表明:
作者使用了 65%、80%、90% 和 95% 四种混合比例的描述性合成标注训练了四个图像生成模型。实验进行到一半时,评估显示 65% 的混合物在所有评估中都远远落后于其他混合物,因此作者放弃了它。
结果表明: 更高程度的合成标注混合始终可以提高模型的 CLIP 分数。
由于用户在实际应用过程中,可能不会发出长的、高度描述性的标注的分布,因此可以借助大型语言模型帮助用户直接扩写,具体来说,可以使用 LLM进行“上采样”,将短的prompt转换成长的prompt,这样不仅可以添加缺失的细节,还可以消除复杂关系的歧义。
作者使用95%的合成标注和5%的真实标注对DALLE3进行训练,并使用自动评估和人工评估两种方式对DALLE3与其他模型的效果进行了对比。
评估指标:
人工评估主要考察的三个方面:
针对于前面两个方面,作者使用了自建的prompts体系去评估,coherence则使用MSCOCO数据集中的一些标注作为prompts体系(主要是因为MSCOCO中没有虚幻的场景)。Drawbench评估方法与自动评估的prompts体系一直,但是用人工来评判生成的图片和prompts是不是致,而不是用GPT-V这种生成模型。
结果显示,在所有三个方面,尤其是在prompt following方面,DALL-E 3 生成的图像在大多数情况下都比所有竞争对手更受人类评分者的青睐。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。