根据单张图像和音频输入生成唱歌和说话视频

 



并能控制人物表情和姿态
和EMO相比,该项目已开源😄
它能够通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。
提高了语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。

提供对角色表情、姿态和嘴唇运动的精确控制。
支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。

在语音音频输入的驱动下,肖像图像动画领域在生成逼真和动态的肖像方面取得了重大进展。这项研究深入研究了同步面部运动以及在基于扩散的方法框架内创建视觉上吸引人、时间一致的动画的复杂性。摆脱依赖参数模型进行中间面部表示的传统范例,我们的创新方法采用端到端扩散范例,并引入分层音频驱动的视觉合成模块,以提高音频输入和视觉输出之间的对齐精度,包括嘴唇、表情和姿势动作。我们提出的网络架构无缝集成了基于扩散的生成模型、基于 UNet 的降噪器、时间对齐技术和参考网络。所提出的分层音频驱动视觉合成提供了对表达和姿势多样性的自适应控制,从而能够针对不同身份进行更有效的个性化定制。通过定性和定量分析的综合评估,我们的方法显示了图像和视频质量、唇形同步精度和运动多样性的明显增强。

项目由复旦大学,百度,苏黎世联邦理工学院,南京大学开发

更多详细信息,可以阅读原文,原文在后面的链接中
谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢

Arxiv:https://arxiv.org/abs/2406.08801
Huggingface:https://huggingface.co/fudan-generative-ai/hallo
项目地址:https://fudan-generative-vision.github.io/hallo/#/

油管:https://youtu.be/lYdsfZ12KYA

留言