前沿科技
测评指南

Stability AI 推出音频采样和音效设计的开源模型 文字到音效的无缝转换

Stability AI 推出了音频采样和音效设计的创新开源模型 – Stable Audio Open,它可以从文本提示生成短音频样本和音效。这个发布旨在为音效设计师、音乐家和更广泛的创意社区提供工具,帮助他们制作高质量的音频数据。

Stable_audio_open

什么是 Stable Audio Open?

Stable Audio Open 可以通过文本描述(例如“在处理过的录音室里演奏的摇滚节拍”)生成最长 47 秒的录音。它是基于变压器架构的潜在扩散模型,使用预训练的 T5 模型(t5-base)进行文本条件转换,将文本提示转换为数值嵌入,以指导音频生成过程。模型使用来自 Freesound 和 Free Music Archive(FMA)约 486,000 个的样本进行训练。该模型可以用来创建鼓点、乐器节奏、环境噪音和视频、电影及电视剧的音乐“制作元素”,不仅如此,它还能“编辑”现有歌曲或将一种风格(如柔和爵士)添加到另一首歌上。

Stable Audio Open 的一个重要的优势是用户可以在自己的自定义音频数据上微调模型。例如,鼓手可以在自己的鼓录音样本上微调模型以生成新的节拍。但使用 Stable Audio Open 生成音乐还是有局限性的,它不能生成完整的歌曲、旋律或人声,如果生成较长的音乐,质量就不会很高。但如果用户有此需求,Stability AI 会建议有这类需求的用户使用公司的付费服务 Stable Audio。商用Stable Audio 产品生成最长 3 分钟的高质量完整曲目,具备高级功能如音频到音频生成和多部分音乐合成。相比之下,Stable Audio Open 专注于生成较短的音频样本、音效和制作元素,适合音效设计而非完整音乐制作。

此外,Stable Audio Open 服务条款禁止用户用于商业使用。它在不同音乐风格和文化之间的表现也不均衡,如果使用英语以外的文字描述得到的音乐效果会较差,Stability AI 认为这与训练数据有关。而且为了确保数据集中不包含未经授权的版权音乐,进行了严格的验证过程,使用 PANNs 音乐分类器(Pretrained Audio Neural Networks,预训练音频神经网络,是一种基于深度学习的模型,专门用于处理和分析音频数据。)识别 Freesound 的音乐样本,并通过 Audible Magic(一家专注于内容识别和版权管理的公司,提供了音频和视频指纹识别技术,帮助内容创作者、发行商、平台和服务提供商管理和保护其数字内容的版权。)的识别服务分析,移除疑似版权音乐。对于 FMA 子集,通过元数据搜索大规模版权音乐数据库,并手动审查标记内容。

Stable Audio Open 的模型可在 Hugging Face 上获取。Stability AI 鼓励音效设计师、音乐家、开发者和音频爱好者下载并探索该模型的功能,并提供反馈,他们的开发团队期待与创意社区继续研究和合作。我想这次发布是朝向开放和负责的音频生成迈出的重要一步。

赞(1)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《Stability AI 推出音频采样和音效设计的开源模型 文字到音效的无缝转换》
文章链接:https://topstip.com/stability-ai-launches-open-source-model/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

登录

找回密码

注册