阿里巴巴的EMO: 情感肖像活灵活现



 在简单条件下通过音频到视频的扩散模型生成充满表情的肖像视频


## 摘要

提出了 EMO,一个能够根据单张参考图片和声音(如说话或唱歌)生成充满表情的肖像视频的框架。这种方法不仅能够捕捉到丰富的面部表情和多样的头部姿势,还能根据声音的长度自由调整视频的持续时间。


## 方法

我们的框架分为两大部分。首先是“帧编码”阶段,通过 ReferenceNet 从参考图片和运动帧中提取特征。接着在“扩散过程”阶段,预训练的音频编码器开始处理声音数据。我们通过将面部区域掩模与多帧噪声结合,精准控制面部图像的生成。此外,我们利用 Backbone Network 进行去噪处理,并在其中运用了两种注意力机制:参考注意力和音频注意力,分别用于保持角色身份的一致性和调整角色动作的自然性。时间模块的加入,更是让我们能够灵活控制动作的速度。


项目地址:https://humanaigc.github.io/emote-portrait-alive/

视频:https://youtu.be/Ne9AoyLpIFU

留言