微软开源的一个文本编码器Glyph-ByT5-v2

升级到V 2版本

与之前专注于英文文本版本相比

Glyph-ByT5-v2能够支持10种不同语言的准确拼写，显著提升了多语言文本渲染的准确性和广泛性。

以下内容，来自原文：

采用了最新的步骤感知偏好学习（SPO）方法，显著提升了视觉美学质量，使生成的图像在视觉上更加吸引人。

最近，Glyph-ByT5在平面设计图像中实现了高精度的视觉文本渲染性能，但仍然只专注于英文，在视觉吸引力方面表现相对较差。在这项工作中，我们通过提出 Glyph-ByT5-v2 来解决这两个基本限制，它不仅支持 10 种不同语言的准确视觉文本渲染，而且还实现了更好的美学质量。

为了实现这一目标，我们做出了以下贡献：(i) 创建高质量的多语言字形文本和图形设计数据集，其中包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对，涵盖九种其他语言， (ii) 构建由 1,000 个提示组成的多语言视觉段落基准，每种语言 100 个提示，以评估多语言视觉拼写准确性，以及 (iii) 利用最新的逐步感知偏好学习方法来提高视觉美学质量。

通过这些技术的结合，我们提供了强大的定制多语言文本编码器 Glyph-ByT5-v2 和强大的美学图形生成模型 Glyph-SDXL-v2，可以支持 10 种不同语言的准确拼写。考虑到最新的 DALLE-3 和 Ideogram 仍在处理多语言视觉文本渲染任务，我们认为我们的工作是一个重大进步。

更多详细信息，可以浏览视频下方的链接

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

项目地址：https://glyph-byt5-v2.github.io

模型下载：https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

油管：https://youtu.be/HHeb5VJp93w

Tarogo Gugu Bloger

搜尋此網誌

微软开源的一个文本编码器Glyph-ByT5-v2

留言

發佈留言