微软开源的一个文本编码器Glyph-ByT5-v2




升级到V 2版本

与之前专注于英文文本版本相比

Glyph-ByT5-v2能够支持10种不同语言的准确拼写,显著提升了多语言文本渲染的准确性和广泛性。


以下内容,来自原文:


采用了最新的步骤感知偏好学习(SPO)方法,显著提升了视觉美学质量,使生成的图像在视觉上更加吸引人。

最近,Glyph-ByT5在平面设计图像中实现了高精度的视觉文本渲染性能,但仍然只专注于英文,在视觉吸引力方面表现相对较差。在这项工作中,我们通过提出 Glyph-ByT5-v2 来解决这两个基本限制,它不仅支持 10 种不同语言的准确视觉文本渲染,而且还实现了更好的美学质量。


为了实现这一目标,我们做出了以下贡献:(i) 创建高质量的多语言字形文本和图形设计数据集,其中包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖九种其他语言, (ii) 构建由 1,000 个提示组成的多语言视觉段落基准,每种语言 100 个提示,以评估多语言视觉拼写准确性,以及 (iii) 利用最新的逐步感知偏好学习方法来提高视觉美学质量。


通过这些技术的结合,我们提供了强大的定制多语言文本编码器 Glyph-ByT5-v2 和强大的美学图形生成模型 Glyph-SDXL-v2,可以支持 10 种不同语言的准确拼写。考虑到最新的 DALLE-3 和 Ideogram 仍在处理多语言视觉文本渲染任务,我们认为我们的工作是一个重大进步。


更多详细信息,可以浏览视频下方的链接

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


项目地址:https://glyph-byt5-v2.github.io

模型下载:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2


油管:https://youtu.be/HHeb5VJp93w

留言