Open-Sora开源了

包括完整的文本到视频模型训练过程、数据处理、训练细节和模型检查点。

该项目由@YangYou1991 团队开发这是 OpenAI Sora 在视频生成方面的开源替代方案。

可以在仅仅3天的训练后生成2~5秒的512x512视频。

Open-Sora采用了优于VideoGPT中VQ-VAE的VAE模型。

项目还探索了不同的模型架构，包括DiT（Diffusion Transformers）、Latte和项目提出的STDiT，以找到在视频质量和生成速度之间最佳平衡的模型架构。

支持使用DiT、Latte和PixArt的官方权重进行推理，使用户能够利用现有的高质量模型生成视频。

是一个研究学习的好东西...

Tarogo Gugu Bloger