【可控图像生成系列论文（六）】ECCV24-Glyph-ByT5 微软亚研院、清华、北大合作工作（上）

2024-11-22 来源：个人技术集锦

系列文章目录

简要介绍了 MimicBrush 的整体流程和方法；
就 MimicBrush 的具体模型结构、训练数据和纹理迁移进行了更详细的介绍。
介绍了一篇相对早期（2018年）的可控字体艺术化工作。
介绍了 IP-Adapter 具体是如何训练的？
介绍了ControlNet 和 IP-Adapter 之间的核心区别有哪些？
【可控图像生成系列论文（六）】介绍 Glyph-ByT5 的核心思想和数据集，后续将介绍更具体的技术细节。
Glyph-ByT5 的 repo 在: https://github.com/AIGText/Glyph-ByT5/tree/main

一、Glyph-ByT5 是什么？

基于 SDXL 和 ByT5 的、可以准确生成不同数量英文字的文生图模型。其中文字数量在四种量级 ≤20 chars、 ≤20-50 chars 、≤50-100 chars、 ≥100 chars都优于现有模型以及商业产品（DALL·E3）。

这项工作以三种不同但互补的贡献：

二、Glyph-ByT5 Text Encoder

现有 “文字渲染的不准确” 的问题，主要归因于 Text Encoder 的局限。例如，最初的 CLIP 文本编码器是为概念层面的广泛视觉语言语义对齐而定制的，而 T5/ByT5 文本编码器则侧重于深度语言理解。
然而，尽管最近的研究表明 T5/ByT5 文本编码器有利于视觉文本渲染任务，但两者都没有针对字形图像解释进行明确的微调。缺乏定制的文本编码器设计可能会导致各种应用中的文本渲染不准确。
1. 对 character-aware ByT5 encoder 进行了针对字形对齐（glyph-aligned）的微调。参考的是 LiT 的对比学习方法。
2. 建立了可扩展的、批量化生成高质量配对文本和字形（paired text-glyph）数据流水线，得到 Glyph-Text Dataset ( $D$ )和 Paragraph-Glyph-Text Dataset ( $D^{paragraph}$ )数据集。
3. 提出了一个字形增强策略（glyph augmentation strategy）来解决中提到的问题。
4. Glyph Text Encoder 采用的是 ByT5 系列（ByT5-Small (217M parameters), ByT5-Base (415M parameters), and ByT5-Large (864M parameters)），而 Glyph Vision Encoder 选择了 DINOv2 系列（ViT-B/14 (86M parameters), ViT-L/14 (300M parameters), and ViT-g/14 (1.1B parameters)）。
5. 最后在对比训练阶段，还提出了一个框级对比损失（box-level contrastive loss），将每个文本框及其相应的文本提示视为一个实例。

1. Glyph-Text Dataset

数据集是采用 Cole 制作的。
数据集中的排版属性包括：字体类型、颜色、大小、位置等。
- 先编译了一个大型文本语料库，可以通过用从语料库中随机采样的文本替换单词来丰富字形图像集。
- 此外，随机修改每个文本框中的字体类型和颜色，以进一步扩大数据集。
- 字体类型有 305 种，均为可商用的开源字体（OFL licenced）
- 100种不同的颜色。
具体例子如下所示

对应的字形描述：{Text “The way you create a better future is by studying the past.” in [font-color-127], [font-type-234]. Text “Happy Graduation Amber” in [font-color-98] [font-type-231]}.

其中使用特殊的标记来表示字体颜色和类型。在将提示文本输入Glyph-ByT5文本编码器之前，我们通过用丰富码本中的一系列全局嵌入替换特殊标记（如标记“[font-color-127]”）来预处理提示文本。
Glyph-Text 数据集上进行了三个不同量级的实验，100K、500K、1M。

2. Paragraph-Glyph-Text Dataset

为了提高小字体的生成质量和定制文本编码器的段落级布局规划能力，作者还编译了一个密集的小段落级字形文本数据集，称为 $D^{paragraph}$
定义 ‘paragraph’ 为，不能被单行容纳的文字内容，具体为 10-100 个字母左右。
段落字形渲染任务带来了更大的挑战，因为它不仅要求非常高的单词级拼写准确性，还要求在指定的框区域内对单词级和行级布局进行细致的规划。
该数据集由 100000 对合成数据{ $I_{glyph}$ ， $T_{text}$ }组成。
实证结果表明，使用 $D^{paragraph}$ 对最初用 $D$ 训练的模型进行微调，可以显著提高渲染小尺寸和段落级视觉文本的性能。
段落级布局规划的能力不容小觑，作者实证证明，扩散模型可以有效地规划多行排列，并根据给定的文本框调整行距或单词间距，而不管其大小或纵横比如何。

在图3中显示了段落字形文本数据的示例图像，说明每个图像至少包含一个包含100多个字符的文本框。有些图像甚至达到400个字符，以合理的间距排列成多行。
作者同样构建了三个量级的段落字形文本数据集，包括100K、500K和1M字形文本对。

Character-aware models improve visual text rendering, https://aclanthology.org/2023.acl-long.900/
Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer. Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 18123–18133, 2022.
Character-aware models improve visual text rendering, https://aclanthology.org/2023.acl-long.900/
Peidong Jia, Chenxuan Li, Zeyu Liu, Yichao Shen, Xingru Chen, Yuhui Yuan, Yinglin Zheng, Dong Chen, Ji Li, Xiaodong Xie, et al. Cole: A hierarchical generation framework for graphic design. arXiv preprint arXiv:2311.16974, 2023.