SignLLM：手语生产大型语言模型

以下内容翻译自原文
在本文中，介绍了第一个名为 Prompt2Sign 的多语言手语数据集，该数据集基于公共手语数据，包括美国手语 (ASL) 和其他七种语言。
数据集将大量视频转换为简化的、模型友好的格式，并针对 seq2seq 和 text2text 等翻译模型的训练进行了优化。在此新数据集的基础上，提出了 SignLLM，这是第一个多语言手语生成 (SLP) 模型，其中包括两种新颖的多语言 SLP 模式，允许根据输入文本或提示生成手语手势。
这两种模式都可以使用新的损失和基于强化学习的模块，通过增强模型自主采样高质量数据的能力来加速训练。展示了 SignLLM 的基准测试结果，这表明我们的模型在跨八种手语的 SLP 任务上实现了最先进的性能。

数据集和主要方法

（左）PROMPT2SIGN 数据集的结构和形式概述。（中）Text2LangGloss与MLSF的交互原理，与强化学习的计算方法。（右）SIGNLLM 的输出可以转换为大多数姿势表示格式，然后可以通过风格迁移/专门微调的生成模型将其渲染为逼真的人类外观。

其他方法

在工作中，通过合并一个标记来改进 Text2Gloss 框架，该标记可以生成具有必要语言属性的 Gloss，同时还通过神经网络中的变量 V 和 X u 来表示深刻的特征。
此外，还介绍了五个关键要素——用户、代理、环境、迭代更新过程和 PLC——它们共同概述了为序列预测量身定制的强化学习过程。

如果想详细了解，可以点开视频下方的链接。
谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

原文：https://signllm.github.io/
Paper：https://arxiv.org/abs/2405.10718

油管：https://youtu.be/fgRJfxsF-ak

Tarogo Gugu Bloger

搜尋此網誌