3D视觉-语言-动作生成世界模型




资料来源:@_akhaliq

最近的视觉-语言-动作 (VLA) 模型依赖于 2D 输入,缺乏与更广泛的 3D 物理世界领域的集成。此外,他们通过学习直接映射来执行动作预测


## 实现原理

感知到行动,忽视了世界的巨大动态以及行动与动态之间的关系。相比之下,人类被赋予了世界模型,可以描绘对未来场景的想象力,从而计划相应的行动。

为此,建议3D-VLA,引入了一系列新的具体化基础模型,通过生成世界模型无缝链接 3D 感知、推理和行动。

具体来说,3D-VLA 构建在基于 3D 的大语言模型 (LLM) 之上,并且一组交互标记是通过从现有机器人数据集中提取大量 3D 相关信息来构建大规模 3D 体现指令数据集。

对保留数据集的实验表明 3D-VLA通过从现有机器人数据集中提取大量 3D 相关信息来构建大规模 3D 体现指令数据集。我们对保留数据集的实验表明 3D-VLA


https://arxiv.org/abs/2403.09631

视频:https://youtu.be/yocHT4SkNbE

留言