3D视觉-语言-动作生成世界模型

资料来源：@_akhaliq

最近的视觉-语言-动作 (VLA) 模型依赖于 2D 输入，缺乏与更广泛的 3D 物理世界领域的集成。此外，他们通过学习直接映射来执行动作预测

## 实现原理

感知到行动，忽视了世界的巨大动态以及行动与动态之间的关系。相比之下，人类被赋予了世界模型，可以描绘对未来场景的想象力，从而计划相应的行动。

为此，建议3D-VLA，引入了一系列新的具体化基础模型，通过生成世界模型无缝链接 3D 感知、推理和行动。

具体来说，3D-VLA 构建在基于 3D 的大语言模型 (LLM) 之上，并且一组交互标记是通过从现有机器人数据集中提取大量 3D 相关信息来构建大规模 3D 体现指令数据集。

对保留数据集的实验表明 3D-VLA通过从现有机器人数据集中提取大量 3D 相关信息来构建大规模 3D 体现指令数据集。我们对保留数据集的实验表明 3D-VLA

Tarogo Gugu Bloger