赞
踩
来源:CSIG文档图像分析与识别专委会
本文简要介绍CVPR 2022录用的论文“Aesthetic Text Logo Synthesis via Content-aware Layout Inferring” 。该论文旨在探究文字标识图像设计过程中的布局自动生成问题。该论文基于条件式对抗生成网络(conditional-GAN),提出双判别器结构和可微分拼接模块,根据输入文字的视觉和语义信息,推理得到每个字形的布局几何参数,从而合成文字标识图像。该方法可以辅助平面设计和其他与文字相关的视觉任务。该工作相关数据集和代码已经开源(见文末)。
01
研究背景
图1 文字标识图像中常见的布局类型
02
数据集
图2 TextLogo3K中Logo图像的标注
同时,它们在原海报图片中的位置和分割信息也一并提供:
图3 TextLogo3K中海报图像的标注
该数据集免费提供给用户做学术研究使用(禁止任何商业用途)。除了文字Logo生成,该数据集同样可以应用于文本检测和识别、艺术字体生成、纹理特效迁移、场景文字编辑等任务。
03
模型设计
本模型的流程框图如下图所示:
图4 本文模型流程框图
本模型基于Conditional GAN来生成文字Logo,创新性地使用双判别器结构(序列判别器和图像判别器),对字形的轨迹序列和整体Logo图像分别做判别;同时借助可微分拼接(Differentiable Composition),构建位置坐标到Logo图像的可微分渲染过程。其主要的流程包括:
首先利用输入元素的双模态的特征(即字形视觉特征和文本语义特征),将其编码成条件特征。
坐标生成器采用条件特征和一个随机噪声作为输入, 为每个字符预测位置坐标,即字形外接框的中心点坐标,宽和高。
每个字符的位置坐标形成一条轨迹序列,故采用一个序列判别器去根据条件对序列和做真假判别。注意到本任务中坐标值是连续的,保证了序列判别器可以传播梯度。
通过可微分拼接,合并每个字形得到的Logo图像。
引入图像判别器,作为序列判别器的补充,目的是进一步捕捉到标志图像的细节信息,保证不同的字形之间不会有较大的重叠,字形间距合理等。
网络的整体优化目标函数如下:
其中,是序列判别器损失,
是图像判别器损失,
是显式的字形重叠损失(详情见论文)。E代表条件编码器,G代表坐标生成器,
分别代码表序列判别器和图像判别器。其中,可微分拼接和双判别器的具体技术细节在后续小节进一步介绍。
在获得预测的几何参数之后,需要进一步将每个字形图像按照这些几何参数拼接成一个文字Logo。更重要的是,这个拼接过程必须是可微分的,以让整个模型可以端到端地被优化。为了达成这个目的,本文设计了一个基于STN(Spatial Transform Networks)变种的可微分拼接方法。在原始的STN中,仿射变换参数是使用神经网络直接直接预测。本文方法先预测得到了目标字形位置坐标,于是先建立原坐标到目标坐标的映射关系(下图左),手动解出仿射变换的参数(下图右)。通过这种方式,既可以保证目标字形的位置坐标在画布的范围之内,又可以利用STN的可微分采样算法。
图5 显式求解仿射变换参数
通常来说,在文字Logo中不同字形之间不会有重叠(有一些故意的设计除外),因此不需要考虑每个字形之间的图层关系。如图6所示,将每个字形变换的图像直接进行加法操作,即可得到Logo图像,结合上述步骤,可微分拼接的整体过程都是可微分的。
图6 根据求解参数合成Logo图像
字符的放置轨迹应该既符合人们的阅读习惯,又呈现出多样的风格。然而,这两个特性不容易被图像生成模型中常用的卷积神经网络(CNNs)所捕获到。为了解决这个问题,本文设计了一个双判别器的模块,包括一个序列判别器和一个图像判别器。序列判别器以条件特征作为初始状态,将几何参数的序列作为输入,去分析这个放置轨迹的合理性。
序列判别器并不能够捕捉到细粒度的信息(如笔画等),因为它仅仅接收几何参数作为输入。于是,本模型引入图像判别器去进一步探究Logo图像(人工设计的或者本模型生成的)的合理性,并预测它们的真假。根据业内的常见做法,将条件特征进行堆叠再放置到的第一个卷积层之后,用作判别条件。
04
实验
如图7和图8所示,本模型可以生成英文Logo图,也可以生成中文Logo。
图7 本模型在英文数据集上结果
图8 本模型在中文数据集上结果
其中,“Ours”所在列表示本模型生成结果,“GT”表示设计师设计的结果。本模型生成的布局具有丰富的多样性:在英文结果里:(1)使用多行风格的布局,如“Welcome TO OUR HOMe”;(2)使用尺度变换起强调作用,如“POSTER HOUSE CAKE 8”中的数字“8”;(3)比较和谐的平移效果,如“Be Kind”。在中文结果里:(1)根据具体字形安排布局,如“B+侦探”中,将“+”号巧妙地安排到“B”右下角和“侦”左下角之间;(2)根据语义进行换行,如“神探包青天”和“春风十里不如你”。
本文与2D图形布局生成工作LayoutGAN[1]和LayoutNet[2]进行了对比,这两种方法没有考虑到空间布局上的序列信息,以及输入元素的自身本文语义信息,所以不能很好地处理该任务。如图9所示,本模型生成了更好的结果。
图9 与现有方法对比
通过主成分分析方法(PCA),对隐空间噪声z进行了可视化实验,结果展示在图10中。结果发现,(1)垂直的布局(B2, C2, H2, E3)倾向于落在平面的左边;(2)水平的布局(A1-E1, H1, G2)倾向于落在平面的中间和上方;(3)多行的布局(A2, D2, E2, F2)倾向于落在平面的右下方;(4)不规则的布局(F1,G1)倾向落在平面的边缘。隐空间噪声z和输入文本的长度变量是正交的。该可视化方法可以引导设计师探索布局风格的隐空间,帮助他们挑选喜欢的风格。
图10 隐空间噪声z的可视化结果
本文开展了一项用户调查,用于收集用户对于本模型生成结果的主观评价,用户群体包括27个专业设计师和52个其他职业者。使用了20对测试图片(模型生成和人工设计的),让用户(1)选择哪个是AI生成的:下表中的“准确率”表示用户挑出本模型结果的概率,越低越好;(2)选择自己更倾向于哪个:下表中的“选择率”表示用户选择本模型结果的概率,越高越好;(3)给AI生成的质量打分(1-5):体现为下表中的“生成质量”,越高越好。从结果可以看出本模型取得了不错的效果,平均准确率接近50%,平均选择率40%。我们也观察到设计师群体更容易鉴别出AI结果,对质量要求也更苛刻,说明本工作还有进一步提升的空间。
表1 主观调查结果
受字体生成模型和纹理迁移模型的启发,本文也建立了一个全自动的文字Logo图生成系统。该系统首先根据用户输入的文本和主题生成对应的字体,接着,将合成的字形图像和文本送到本文提出的布局生成网络中,得到字形摆放的布局,最后使用纹理迁移模型得到修饰后的Logo图像。图11展示了一些合成的样例,证明了本系统的有效性。
图11 Logo图像生成系统
05
结论
06
相关资源
论文: https://arxiv.org/abs/2204.02701
数据集和代码: https://github.com/yizhiwang96/TextLogoLayout
参考文献
[1] Li, Jianan, et al. LayoutGAN: Generating Graphic Layouts with Wireframe Discriminators.International Conference on Learning Representations. 2018.
[2] Zheng, Xinru, et al. Content-aware generative modeling of graphic design layouts.ACM Transactions on Graphics (TOG). 2019.
原文作者:Yizhi Wang, Guo Pu, Wenhan Luo, Yexin Wang, Pengfei Xiong, Hongwen Kang, Zhouhui Lian
猜您喜欢:
附下载 |《TensorFlow 2.0 深度学习算法实战》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。