SignLLM:手语生产大型语言模型

 



以下内容翻译自原文
在本文中,介绍了第一个名为 Prompt2Sign 的多语言手语数据集,该数据集基于公共手语数据,包括美国手语 (ASL) 和其他七种语言。
数据集将大量视频转换为简化的、模型友好的格式,并针对 seq2seq 和 text2text 等翻译模型的训练进行了优化。在此新数据集的基础上,提出了 SignLLM,这是第一个多语言手语生成 (SLP) 模型,其中包括两种新颖的多语言 SLP 模式,允许根据输入文本或提示生成手语手势。
这两种模式都可以使用新的损失和基于强化学习的模块,通过增强模型自主采样高质量数据的能力来加速训练。展示了 SignLLM 的基准测试结果,这表明我们的模型在跨八种手语的 SLP 任务上实现了最先进的性能。

数据集和主要方法


(左)PROMPT2SIGN 数据集的结构和形式概述。 (中)Text2LangGloss与MLSF的交互原理,与强化学习的计算方法。 (右)SIGNLLM 的输出可以转换为大多数姿势表示格式,然后可以通过风格迁移/专门微调的生成模型将其渲染为逼真的人类外观。

其他方法

在工作中,通过合并一个标记来改进 Text2Gloss 框架,该标记可以生成具有必要语言属性的 Gloss,同时还通过神经网络中的变量 V 和 X u 来表示深刻的特征。
此外,还介绍了五个关键要素——用户、代理、环境、迭代更新过程和 PLC——它们共同概述了为序列预测量身定制的强化学习过程。

如果想详细了解,可以点开视频下方的链接。
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

原文:https://signllm.github.io/
Paper:https://arxiv.org/abs/2405.10718

油管:https://youtu.be/fgRJfxsF-ak

留言