OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

PHPz 转载: 2023-08-29 20:25:03 303浏览

近年来，文本生成图像领域取得了许多令人惊讶的突破，许多模型都能够根据文本指令创建高质量和多样化的图像。尽管生成的图像已经非常逼真，但目前的模型通常擅长生成风景、物体等实物图像，而难以生成具有高度连贯细节的图像，例如带有汉字等复杂字形文本的图像

为了解决这个问题，来自OPPO等机构的研究者们提出了一个名为GlyphDraw的通用学习框架。该框架的目标是让模型能够生成嵌入连贯文本的图像。这项工作是图像合成领域中首个解决汉字生成问题的工作

请点击以下链接查看论文：https://arxiv.org/abs/2303.17870
项目主页链接：https://1073521013.github.io/glyph-draw.github.io/

让我们先来看一下生成效果，比如为展览馆生成警示标语：

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

制作广告牌：

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

为图片添加简要的文字说明，同时还可以多样化文字样式

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

还有一个有趣且实用的例子是生成表情包：

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

尽管结果有一些缺陷，但总体而言，该研究的生成效果已经非常出色。该研究的主要贡献包括：

该研究提出了一个名为GlyphDraw的汉字图像生成框架。在整个生成过程中，利用汉字字形和位置等辅助信息，该框架能够提供细粒度的指导，从而使得生成的汉字图像能够高质量地无缝嵌入到图像中
这项研究提出了一种有效的训练策略，通过限制预训练模型中可训练参数的数量，以防止过拟合和灾难性遗忘（catastrophic forgetting），成功地保持了模型在开放域生成方面的强大性能，并且能够准确地生成汉字图像
这项研究详细描述了构建训练数据集的过程，并提出了一种新的基准方法来评估汉字图像生成的质量。其中，GlyphDraw 的生成准确率达到了75%，明显优于之前的图像合成方法

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

模型介绍：

首先，该研究设计了一种复杂的图像-文本数据集构建策略。接着，利用开源图像合成算法Stable Diffusion，提出了一种通用学习框架GlyphDraw，如图2所示

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

稳定扩散的整体训练目标可以表示为以下公式：

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

GlyphDraw是基于Stable Diffusion中的交叉注意力机制的。它将原始输入的潜在向量z_t与图像的潜在向量z_t、文本掩码l_m和字形图像l_g进行级联替代

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包

此外，通过使用特定领域的融合模块，条件 C 配备了混合字形和文本特征。引入文本掩码和字形信息，使整个训练过程实现了细粒度的扩散控制，这是提高模型性能的关键组成部分，最终能够生成带有汉字文本的图像

具体来说，文本信息的像素表征，在特别是复杂的文本形式中，如象形汉字，与自然物体存在明显的差异。举例来说，中文词语「天空（sky）」是由二维结构的多个笔画组成，而对应的自然图像是「点缀着白云的蓝天」。相比之下，汉字具有非常细粒度的特性，即使是微小的移动或变形也会导致文本渲染不正确，从而无法实现图像生成

嵌入字符到自然图像背景中还需要考虑一个关键问题，即在不影响相邻自然图像像素的情况下，精确控制文本像素的生成。为了在自然图像上展示出完美的汉字，作者设计了两个关键组件，即位置控制和字形控制，它们被集成到了扩散合成模型中

与其他模型的全局条件输入不同，字符生成需要更多地关注图像的特定局部区域，因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃，该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布

重写后的内容：除了位置控制之外，另一个重要问题是对汉字笔画合成进行精细控制。考虑到汉字的复杂性和多样性，在没有任何明确的先验知识的情况下，仅仅从大量的图像-文本数据集中学习是非常困难的。为了准确生成汉字，该研究将显式的字形图像作为额外的条件信息引入模型的扩散过程中

OPPO提出GlyphDraw：一键生成带汉字图像，扩散模型输出表情包