北京大学Yuangroup团队发起了一个 Open-Sora计划

旨在复现OpenAI 的Sora模型

Open-Sora计划通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件，来实现Sora模型的功能。

## 该项目现在支持：

🚀可变长宽比

✈️可变分辨率

🚅可变持续时间

演示视频：10s视频重建（256x256分辨率）/ 18s视频重建(196x)

Open-Sora计划实现了以下几个关键组件和特性来复现OpenAI的视频生成模型：

1、视频VQ-VAE（Vector Quantized-Variational AutoEncoder）：这是一个压缩视频到时间和空间维度的潜在表示的组件。它可以将高分辨率视频压缩成低维度的表示，便于后续的处理和生成。

2、去噪扩散变换器（Denoising Diffusion Transformer）：这个组件用于从潜在表示中生成视频，通过逐步减少噪声来恢复视频的详细内容。

3、条件编码器（Condition Encoder）：支持多种条件输入，允许模型根据不同的文本描述或其他条件生成视频内容。

## 此外，项目还实施了几项技术以增强视频生成的灵活性和质量：

1、可变长宽比：通过动态遮罩策略并行批量训练，保持灵活的长宽比。将高分辨率视频调整大小以使最长边为256像素，保持长宽比，然后在右侧和底部用零填充以达到统一的256x256分辨率。

2、可变分辨率：尽管在固定的256x256分辨率上训练，但在推理过程中，使用位置插值使得可以进行可变分辨率采样。这使得注意力基础的扩散模型能够处理更高分辨率的序列。

3、可变持续时间：利用视频VQ-VAE压缩视频到潜在表示，实现多持续时间的视频生成。通过将空间位置插值扩展到时空版本，以处理可变持续时间的视频。

Tarogo Gugu Bloger