Google刚刚发布了VideoPoet:多模态视频生成模型!



它是大规模多模态的,可以作为输入:文本、图像、深度和光流或蒙版视频,并且是第一个生成视频+音频的模型之一!


更多信息如下 ⬇️  ⬇️


通过输入视频,无需任何文本提示,它就会为其生成可信的音频!


以上就是全部,原作者@alexcarliera

留言