腾讯也搞了一个让照片能唱歌说话的项目



比阿里EMO先开源


AniPortrait:根据音频和图像输入 生成会说话、唱歌的动态视频


它可以根据音频(比如说话声)和一张静态的人脸图片,自动生成逼真的人脸动画,并保持口型一致。


支持多种语言,同时支持进行面部重绘和头部姿势控制。


## 主要功能:


1、音频驱动的动画合成:AniPortrait能够利用音频文件驱动,生成逼真的肖像动画。这意味着用户可以提供一个音频文件和一张参考的肖像图片,AniPortrait将根据音频中的语音和声音的节奏来动态地生成说话或表情变化的肖像动画。

2、面部再现:除了音频驱动动画之外,AniPortrait还支持面部再现功能,通过分析给定视频中的面部表情和动作,AniPortrait可以在另一张参考肖像上再现相同的表情和动作。例如用户可以提供一段视频,实现在新的肖像上复现视频中人物的面部表情和动作。这项技术可以用于创造逼真的虚拟角色动画,使其复现真人的表情和动作。

3、头部姿势控制:用户可以指定头部姿势,或者选择预设的姿势配置,来控制生成动画中的头部动作,使动画效果更加自然和多样化。

4、支持自驱动和音频驱动的视频生成:项目不仅支持音频驱动的动画生成,还可以进行自驱动的视频生成,即不需要外部音频输入,而是根据预设或随机生成的动作来创建动画。

5、高质量动画生成:niPortrait旨在生成高度逼真的肖像动画,无论是从视觉质量还是动作自然度方面,都力求接近真实人物的外观和表现。

6、灵活的模型和权重配置:项目提供了一套预训练的模型和权重配置,用户可以根据自己的需求下载和配置,包括用于去噪、参考生成、姿势指导、动作模块和音频到网格转换的模型。包括StableDiffusion V1.5、denoising_unet、reference_unet、pose_guider、motion_module和audio2mesh等。


GitHub:https://github.com/Zejun-Yang/AniPortrait

论文:https://arxiv.org/abs/2403.17694


视频:https://youtu.be/zj2Cw-Hh78A

留言