标签：微软研究院

微软新项目 VASA，实时生成头像图片转匹配口型的演讲视频惊艳

VASA项目微软是一个基于单张静态图像和语音音频片段生成逼真说话人脸的框架，具有吸引人的视觉情感技能（VAS）。采用的首款模型：VASA-1，不仅能够产生与音频精确同步的嘴唇动作，还能捕捉到广泛的面部细微差异和自然的头部运动，从而增强了真实...

这款工具专为防止网页视频在各种情况下自动暂停而设计，特别适合需要后台连续播放媒体的用户进行多任务操作。它能有效应对切换标签页、最小化窗口、鼠标离开页面、画中画模式、窗口失焦、多屏显示，以及网站通过JavaScript事件或定时器检测引发的暂停。