微软新项目 VASA,实时生成头像图片转匹配口型的演讲视频 惊艳
VASA项目微软是一个基于单张静态图像和语音音频片段生成逼真说话人脸的框架,具有吸引人的视觉情感技能(VAS)。采用的首款模型:VASA-1,不仅能够产生与音频精确同步的嘴唇动作,还能捕捉到广泛的面部细微差异和自然的头部运动,从而增强了真实...
VASA项目微软是一个基于单张静态图像和语音音频片段生成逼真说话人脸的框架,具有吸引人的视觉情感技能(VAS)。采用的首款模型:VASA-1,不仅能够产生与音频精确同步的嘴唇动作,还能捕捉到广泛的面部细微差异和自然的头部运动,从而增强了真实...