Nvidia 推出最新 AI 音频模型，可制作前所未有的声音

英伟达新发布的“Fugatto”模型能够通过创新的合成方法和推理技术，生成各种从未存在过的声音，包括混合音乐、语音和其他声音。虽然模型尚未公开测试，但其展示了许多独特的音频效果，展示了其潜力。

数据决定成败

在一篇解释性研究论文中，超过十位英伟达的研究人员通过利用大型语言模型 (LLM) 生成 Python 脚本，以创建大量描述不同音频“个性”的模板化和自由格式指令。由于广泛开源的 Fugatto 音频数据集通常缺乏特征测量，研究人员借助现有音频理解模型，为训练剪辑创建“合成标签”，并自动量化性别、情感和语音质量等特征。同时，他们还使用音频处理工具在声学层面描述和量化训练剪辑。

在进行关系性比较时，研究人员依赖于在某一因素保持不变时另一个因素变化的数据集，例如相同文本的不同情感朗读。通过比较这些样本，模型能够学习哪些音频特征与“更快乐”的语音相关，或区分不同乐器的声音。

最终，克服了音频和语言之间的关系难题，利用开源数据集和现有音频理解模型，成功训练了 Fugatto 模型。该模型的训练数据集包含 2000 万个样本，代表 50,000 小时的音频，最终得到了一个 2.5 亿参数的模型，能在音频质量测试中表现出良好的评分效果。

英伟达的 Fugatto 模型通过其“ComposableART”系统，能够在给定音频和文本提示的情况下生成前所未有的音频组合。该系统能够根据条件控制音频特征并创造出新声音，例如将吉他声音与笑声结合或将机器声音与痛苦尖叫混合。

英伟达的Fugatto系统引入了名为“ComposableART”的音频表示转换技术，能够在给定文本和/或音频提示时，通过“条件指导”独立控制和生成未见过的指令和任务组合，从而创造出高度可定制的音频输出。这一系统可以将训练集中的不同特征组合，生成全新声音，例如“听起来像笑声的吉他”或“像在轻柔降雨中演奏的班卓琴”。

*Fugatto 生成的音频 (洋红色) 与输入 MIDI 文件 (青色) 的旋律非常吻合*

尽管论文中涉及复杂的数学内容，但从示例和宣传片中可以看出，Fugatto 将每个音频特征视为可调的连续体，而非简单的二元选择。例如，在融合吉他和流水的声音时，用户可以调节各自的权重，从而得到不同的结果。此外，Fugatto 还能够执行多种音频任务，如改变文本情感、分离音乐中的人声、识别 MIDI 音乐中的单个音符并替换为不同演唱表演。

研究人员将Fugatto视为朝向无监督多任务学习未来的一步，英伟达也在讨论其应用案例，包括歌曲原型制作、动态视频游戏配乐和国际广告定位。英伟达强调，Fugatto应被视为音频艺术家的新工具，而非替代他们创作才能的工具。英伟达 Inception 项目参与者 Ido Zmishlany 指出，随着 AI 的发展，我们正在书写音乐的新篇章，Fugatto 为音乐创作提供了新的可能性。

关注 TopsTip：X/Twitter

-=||=-收藏赞 (1)

Nvidia 推出最新 AI 音频模型，可制作前所未有的声音

Elaine 

相关推荐

评论抢沙发

评论前必须登录！

作者介绍

Elaine

关注我们

近期热门

年度必读

Elaine

相关推荐

评论 抢沙发

评论前必须登录！

作者介绍

Elaine

关注我们

近期热门

年度必读

Elaine 

评论抢沙发