OpenAI Sora的新文本到视频模型

英伟达科学家@DrJimFan如何评价Sora？

1/Sora 是一个数据驱动的物理引擎，它是对许多世界的模拟

2/看似简单的步骤包含了大量的技术和模拟

3/未来它将取代所有手工设计的图形管道。

## 以下是正文：

Sora 是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的还是幻想的。模拟器通过一些去噪和梯度数学来学习复杂的渲染、“直观”物理、长期推理和语义基础。

如果 Sora 使用虚幻引擎 5 对大量合成数据进行训练，我不会感到惊讶。它必须如此！

我们来分解一下下面的视频。提示：“两艘海盗船在一杯咖啡内航行时互相战斗的逼真特写视频。”

- 模拟器实例化了两种精美的3D资产：具有不同装饰的海盗船。 Sora 必须在其潜在空间中隐式地解决文本到 3D 的问题。

- 3D 对象在航行并避开彼此路径时始终保持动画效果。

- 咖啡的流体动力学，甚至是船舶周围形成的泡沫。流体模拟是计算机图形学的一个完整子领域，传统上需要非常复杂的算法和方程。

- 照片写实主义，几乎就像光线追踪渲染一样。

- 模拟器考虑到杯子与海洋相比尺寸较小，并应用移轴摄影来营造“微小”的氛围。

- 场景的语义在现实世界中并不存在，但引擎仍然实现了我们期望的正确物理规则。

Tarogo Gugu Bloger