凤凰网汽车

凤凰网汽车>全媒体>正文

讯飞再推黑科技，“飞鱼音效”让你“声”临其境

2021年11月20日 12:36:05

分享到：

来源：AutoLab

技术平权，是我听过最浪漫的词。通过技术上的努力，让每个人都能平等、有尊严地享受丰富多彩的现代文明，这才是技术进步的魅力。

广州车展前夕，科大讯飞正式发布了“飞鱼音效”产品，通过端云协同的人工智能算法进行调音，软硬一体的方案使普通车主也能拥有百万豪车的听觉体验。

该套“飞鱼音效”将搭载在智己、广汽传祺、奇瑞等品牌的车型上。

科大讯飞请了多位音乐学院的学生，体验某豪华品牌中大型SUV的原车高级音响，及科大讯飞改装的某10万级国产SUV音响。经过多维度的盲评，后者的各项表现都要优于前者。

科大讯飞总裁吴晓如在介绍“飞鱼音效”前，举了相机和手机的例子。过去摄影只是属于少数人的爱好，因为相机很贵且功能单一，而现在随着手机影像素质越来越好，越来越多人可以随时用镜头记录生活，甚至还催生了用Vlog、短视频来分享生活。

手机受制于成本和尺寸，镜头和传感器并不可能比相机好，能做到现在的状态，依靠的是手机的成像算法、补偿算法、合成算法、光学防抖算法等一系列的智能软件的加持，拉高了硬件的体验。

科大讯飞“飞鱼音效”的做法和手机相机的逆袭类似，也是通过软件算法，拉高硬件的体验，让普通硬件也能达到豪华硬件的水准。具体是怎么做到的呢？

“飞鱼音效”的秘密

我们通常认为“身临其境”，是对听觉体验最高的赞赏，毕竟去现场看话剧比看电影贵，现场听音乐会也比听数字CD贵。

因此想知道“智能算法是如何提升硬件体验”，就得先聊聊人是如何通过听觉来感知环境的？

我们闭上眼睛，可以听到不同的声音的强弱层次，以及各个声源位于我们的位置。不同声音的区分是来自我们大脑内的记忆存储，声音的强弱则来自音量和距离，而声源的定位则依靠我们耳朵的结构，以及声音入耳的角度。

具体来说，我们是通过声音在左右耳之间的延迟，来判断声源水平方位，通过耳廓对声波的反射，获取声源的垂直方位。

如果能够通过精细化的调校模拟出不同声音的音量、离左右耳的距离，在耳廓中的反射，就能实现虚拟声学空间，在汽车的座舱中营造立体的、高还原度的声场。

在这一过程是非常难的。很多对座舱听觉体验有要求的车型，都拥有10个以上扬声器，每个扬声器有3到4个喇叭，每个喇叭都需要协同调节，参数量非常大。这种多参数的系统调优耗时耗力，但现阶段多数都是依靠“金耳朵”们人力完成的。因此对一套动辄上万元的音响系统而言，调校是当下成本的大头。

此外受制于座舱内空间有限，扬声器安装的位置也不够灵活，但多数的音响系统调校，都是基于音乐厅、家庭影院，没能很好适配座舱场景，因此也无法最大化发挥昂贵硬件系统的价值。

科大讯飞的做法是，通过采集舱内每一个位置接收不同喇叭声音的参数，通过人工智能算法针对座舱场景自动调优，减少了声源调校的人力成本和时间成本。

做到这些还不够，科大讯飞依靠自身强大的语音人工智能技术，将各类声音做实时的元素分离，精准还原声场。例如为了还原一场电影的声音效果，会将声道中不同人的对话、BGM声、背景直升机的声音、海浪的声音、海鸟的叫声等分离出来，再根据人耳的位置，按照不同方向、频率、音量等做精细化分布，从而听起来更有层次感和指向性。

为了软硬一体提升座舱听觉体验，科大讯飞发布了“飞鱼智能音频管理系统”，支持10路麦克风接入、6路传感器接入、和对26个扬声器单元的管理。“飞鱼智能音频管理系统”搭配不同数量的普通扬声器，可实现不同梯度的座舱听觉体验。

电动汽车拥有更高的电压、更多的带电量，为座舱的听觉提升提供了基础，车主们对电动汽车的听觉需求也会越来越高。科大讯飞的“飞鱼音效”，能够通过智能算法的加持，实现技术平权，让优质的听觉体验不再是需要花近10万费用加装的奢侈品。

融入飞鱼OS的场景化服务

场景这个词愈发频繁地进入我们的视野，自动驾驶需要场景化落地，智能座舱也需要针对不同场景做更精细化的服务。本次科大讯飞的发布会，飞鱼OS也增加了很多针对场景做的用户体验优化设计。简单来分享几个我认为很棒的设计。

融合视觉的动态完美“皇帝位”。通过座舱摄像头获取的座舱信息，就可以知道当前车内该服务的“听”者是谁，从而做到自动切换声场。同时视觉算法可以捕捉耳朵的位置，做到动态的声场定位。当一个人开车时，系统会让音响的“皇帝位”跟着主驾驶的耳朵走。这相对于此前在车内调校几个固定声场，再在车机屏幕上手动切换，用户体验是质的飞跃。

飞鱼音效和辅助驾驶的融合体验。辅助驾驶系统启用下，座舱会有很多的提示信息和提示音，飞鱼OS希望通过ADAS的感知数据，让提示音能够和障碍物的方位保持一致。例如当左前方有车近距离Cut in，触发系统警报声，就会从左前方传来。这样避免了辅助驾驶系统下消息过密，影响体验。

融合视觉的车内无障碍交流。同样是通过座舱摄像头或许视觉信息，当通过唇部判断两个人在聊天时，系统会主动降低这两个位置听到的声音音量，让聊天信息更清晰。如果是两个坐在前后排，且车在高速上噪音比较大时怎么办？

还有车内交流补偿，就是通过一侧的麦克风降噪收声，然后再在另一个乘客座位的音响内播放，这样来个循环，就能确保两个人在环境噪音较大的情况下无障碍交流。当然，打电话时的收声降噪问题，早就不算问题了。

场景定制。可以针对不同的场景做不同的定制化体验，例如定制看电影的专属调校、听音乐的专属调校、放松的森林小屋场景，还有KTV车内唱歌的场景。这些场景不仅会对扬声器和声场做专属优化，还会和生态商一起做优化。举个例子，KTV场景下，对伴奏声做声场调校，还会在收声后做声音的优化处理，让你觉得自己唱的更好听。

语音流转。语音电话打进来了，聊到一半，想让后排的乘客继续聊，只需要在屏幕上划一下，就能将声音和收声都移动到该驾驶位。

每个座位专属的语音TTS。同一个语音助手，在不同的座位，可以用不同的TTS存在，也会变得很有趣。想象一下主驾交流使用时是成熟的大人声，而后排的小朋友在后排听到的是童声，每个座位都能听到自己想象中人工智能应该有的声音。

通过不同声音的元素分离技术，精细化的扬声器和麦克风控制，以及视觉人工智能的相结合，座舱在娱乐、办公等不同需求下的用户体验升级，会打来非常大的想象空间。

写在最后：

介绍完“飞鱼音效”以及飞鱼OS的场景化服务，再来分享一个不那么有趣的故事。

科大讯飞苏州研发院的团队，在做完“飞鱼音效”后，邀请了某家车企合作伙伴来体验。对方体验完，表示“飞鱼音效”的表现，在各方面都比进口的名牌音响系统要好，但自家依然不会买。

原因大家都懂的，毕竟声音的优异对很多人而言是“玄学”，而一个响当当的国外牌子刻在显眼的位置，确实更吸引人。

拥抱变化真的是一件艰难且需要勇气的事。