前沿科技
测评指南

降噪耳机可能迎来革命性的的进步? 科学家用数百万种声音训练新型AI智能系统,能让降噪耳机保留人声

该系统名为“收听目标语音(Target Speech Hearing)”,用户可以选择一个人作为目标,即使所有其他声音都被消除,他的声音也依旧能被听到。

我们生活在一个嘈杂的世界里。如果你不喜欢噪音,降噪耳机可以减少环境中的杂音,但它们也会不分青红皂白地过滤掉所有声音,有时候戴着降噪耳机正沉浸在自己的世界中时,突然要和人讲话的体验非常糟糕,如果手上正有工作要忙,不摘下一只耳机根本无法和人正常交谈,只能寄希望于别人说话大声一点,或是反复询问别人刚才说了什么。

手机厂商出的耳机会在这些方面有所优化,苹果的 Airpods 有通透模式,而三星的 Buds 有人声传透的选项开关。但通透模式无法和降噪并存,而人声传透又是简单的不过滤人声频段的声音来实现的,如果周围有人声类似频段的声音,开启这个功能后反而不如不开降噪,体验会比较糟糕。

随着 Ai 技术的发展,一个新的人工智能系统旨在解决降噪耳机的这一问题。该系统名为“收听目标语音(Target Speech Hearing)”,用户可以选择一个人作为目标,即使所有其他声音都被消除,他的声音也依旧能被听到。

虽然这项技术还处在概念验证阶段,但该技术的开发者表示,他们正和厂商讨论将该项技术加入流行品牌的降噪耳机中的可能性,并会努力尝试将其用在助听器上。

参与该项目的美国华盛顿大学教授什亚姆·戈拉科塔(Shyam Gollakota)说:“倾听特定人群的声音是我们在世界上如何沟通,以及如何与他人互动的一个基本要素。但在特定情况下,即使你没有任何听力问题,专注于特定的人也可能变得非常有挑战性。”

但是这样一个听起来很强大的模型,怎么运行在耳机这样计算能力和电池容量都有限的低功耗设备上呢?

为了实现这个体积小、能耗低的神经网络模型,该团队使用了一种名为“知识提取”的人工智能压缩技术。

他们先是训练了一个素材量有上百万种声音的大型的神经网络模型作为 “老师”,指导一个规模较小的模型充当“学生”,使后者能够模仿“老师”的行为和表现水平。

通过使用降噪耳机上的麦克风捕捉环境中的声音,学生模型可以识别并提取特定声音的模式。

在激活这个神经网络模型时,用户需要对准目标对象并按住耳机上的按钮几秒钟。声音的“注册”过程中,系统通过耳机上的麦克风捕捉音频样本,并利用神经网络模型推理并提取说话者的声音特征,即使周围有其他声音和噪音。

使用耳机的过程中,这个神经网络会持续运行,提取出来的声音特征被传输到一个微控制器计算机上运行的第二个神经网络中,两者通过通用串行总线(USB)连接。符合这些特征的声音将成为降噪系统过滤的白名单,以实现过滤噪音而保留指定人声的效果。从理论上来说,该系统从讲话者的声音中获得的训练数据越多,其区分声音的能力就越强。

虽然目前该系统工作时只能注册一种声音,而且该声音必须是注册时最响亮的那个,但该团队的目标是即使特定方向上最大的声音不是目标人物,该系统仍然可以工作,后续仍有很多优化进步的空间。

微软研究语音和人工智能的高级研究员塞菲克·埃姆雷·埃斯基梅兹(Sefik Emre Eskimez)表示,在嘈杂的环境中捕捉一个声音是非常困难的。他没有参与这项研究。

“我知道很多公司都想这么做。”他说,“如果他们能做到这一点,就会解锁很多应用场景,尤其可以用在会议场景中。”

美国卡内基梅隆大学语言技术研究所的研究员萨姆勒·康奈尔(Samuele Cornell)认为,虽然语音分离研究往往是理论性的,而不是实践性的,但这项工作在现实世界中有着明确的应用。

他没有参与该研究。但其表示:“我认为这是朝着正确方向迈出的一步,是很新颖的尝试。”

赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《降噪耳机可能迎来革命性的的进步?》
文章链接:https://topstip.com/new-descendance-technology/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

登录

找回密码

注册