Stability AI 推出音频采样和音效设计的开源模型

Stability AI 推出了音频采样和音效设计的创新开源模型 – Stable Audio Open，它可以从文本提示生成短音频样本和音效。这个发布旨在为音效设计师、音乐家和更广泛的创意社区提供工具，帮助他们制作高质量的音频数据。

什么是 Stable Audio Open？

Stable Audio Open 可以通过文本描述（例如“在处理过的录音室里演奏的摇滚节拍”）生成最长 47 秒的录音。它是基于变压器架构的潜在扩散模型，使用预训练的 T5 模型（t5-base）进行文本条件转换，将文本提示转换为数值嵌入，以指导音频生成过程。模型使用来自 Freesound 和 Free Music Archive（FMA）约 486,000 个的样本进行训练。该模型可以用来创建鼓点、乐器节奏、环境噪音和视频、电影及电视剧的音乐“制作元素”，不仅如此，它还能“编辑”现有歌曲或将一种风格（如柔和爵士）添加到另一首歌上。

Stable Audio Open 的一个重要的优势是用户可以在自己的自定义音频数据上微调模型。例如，鼓手可以在自己的鼓录音样本上微调模型以生成新的节拍。但使用 Stable Audio Open 生成音乐还是有局限性的，它不能生成完整的歌曲、旋律或人声，如果生成较长的音乐，质量就不会很高。但如果用户有此需求，Stability AI 会建议有这类需求的用户使用公司的付费服务 Stable Audio。商用Stable Audio 产品生成最长 3 分钟的高质量完整曲目，具备高级功能如音频到音频生成和多部分音乐合成。相比之下，Stable Audio Open 专注于生成较短的音频样本、音效和制作元素，适合音效设计而非完整音乐制作。

此外，Stable Audio Open 服务条款禁止用户用于商业使用。它在不同音乐风格和文化之间的表现也不均衡，如果使用英语以外的文字描述得到的音乐效果会较差，Stability AI 认为这与训练数据有关。而且为了确保数据集中不包含未经授权的版权音乐，进行了严格的验证过程，使用 PANNs 音乐分类器（Pretrained Audio Neural Networks，预训练音频神经网络，是一种基于深度学习的模型，专门用于处理和分析音频数据。）识别 Freesound 的音乐样本，并通过 Audible Magic（一家专注于内容识别和版权管理的公司，提供了音频和视频指纹识别技术，帮助内容创作者、发行商、平台和服务提供商管理和保护其数字内容的版权。）的识别服务分析，移除疑似版权音乐。对于 FMA 子集，通过元数据搜索大规模版权音乐数据库，并手动审查标记内容。

Stable Audio Open 的模型可在 Hugging Face 上获取。Stability AI 鼓励音效设计师、音乐家、开发者和音频爱好者下载并探索该模型的功能，并提供反馈，他们的开发团队期待与创意社区继续研究和合作。我想这次发布是朝向开放和负责的音频生成迈出的重要一步。

-=||=-收藏赞 (1)

Stability AI 推出音频采样和音效设计的开源模型文字到音效的无缝转换

Elaine 

相关推荐

评论抢沙发

评论前必须登录！

作者介绍

Elaine

关注我们

近期热门

年度必读

Elaine

相关推荐

评论 抢沙发

评论前必须登录！

作者介绍

Elaine

关注我们

近期热门

年度必读

Elaine 

评论抢沙发