微软发布 VASA-1 模型实现蒙娜丽莎说唱

随着人工智能逐渐进入人们的生活，并在一些领域展现出了比人类更为优秀的可能，功能相对有限的智能设备逐渐变为日常生活中的助手和有效的生产力工具；模型可以为无声视频生成逼真的音效，并通过文字提示生成让人意料之外的镜头。

近期，蒙娜丽莎的说唱视频热度非常高，获得了极高的点击量，让许多人感到震惊，这是 VASA-1 的杰作。VASA-1 是微软亚洲研究院在上周推出的人工智能模型。在对大量面部表情数据和语音模式的学习后，可以仅用一张真人面部照片和一段音频，生成精确且逼真流畅自然的对口型视频。

VASA-1 模型的演示视频一发布，就引起了众人的探讨，VASA-1 生成视频中的唇形与音频高度同步，面部表情和头部动作也非常自然，甚至可以根据音频的内容表达出不同的情绪。在与市场上现有的类似产品相比较后，它被认为实现了一个巨大的飞跃。在细节质量、真实感流畅度上都令人惊叹。

简而言之，VASA-1 是一个可以让几乎任何人都说出你想让他们说的任何话的工具，但目前很难保证其不被滥用，被用于误导和欺骗他人，因此该模型并没有向公众开放，但我们可以从中看到它潜在的应用场景，尤其是在娱乐、教育和社交领域。

-=||=-收藏赞 (0)