前沿科技
测评指南

法国 AI 实验室 Kyutai 发布实时语音开源模型,功能超过 GPT-4o

法国非营利 AI 研究实验室 Kyutai 推出了 Moshi,这是一款实时原生多模态基础 AI 模型。这个开源项目具备语音功能的 AI 助手,其能力超越了 OpenAI 的 GPT-4o 和 Google Astra。

Moshi 基于 Helium 7B 模型构建,能以各种口音和 70 种情感和风格说话,并能同时处理两个音频流。Moshi 还集成了文本和音频训练,能在 200 毫秒内实现实时互动,优化了多种后端,可以在笔记本电脑上运行而无需云端交互。Kyutai 将 Moshi 开源,并计划加入 AI 音频识别和水印功能。Moshi 的语音模式令人印象深刻,Kyutai 计划发布完整模型,目标是促进 AI 开放研究和生态系统发展,还可能会推动其他语音助手的开发。

该实验室成立于 2023 年 11 月,获得了包括法国亿万富翁 Xavier Niel 在内的投资者 3 亿欧元的支持,旨在促进 AI 领域的开放研究和生态系统发展。该实验室的做法对挑战了如 OpenAI 这样的主要 AI 公司,而 OpenAI 因安全问题而一直在推迟发布其视频生成模型 Sora,以及 GPT-4o 的语音引擎和语音模式功能。

赞(2)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《法国 AI 实验室 Kyutai 发布实时语音开源模型,功能超过 GPT-4o》
文章链接:https://topstip.com/french-ai-lab-kyutai-releases-open-source-model-of-real-time-speech/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

登录

找回密码

注册