近日小鹏汽车宣布,Xmart OS车载智能系统中的智能语音助手小P即将通过OTA获得一款全新AI声音。新声音采用了“全新一代超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合,更好听、更生动,带来更接近真人的车载语音交互,进一步完善全语音车载系统的用户体验。
全新AI声音采用了24K采样技术,实现了高保真音质,并拥有包括助理、聊天、客服、愉快、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静等14种强烈情绪的变换能力,声音细腻动听,生动自然,有真人般的气息顿挫,能表达更多情绪,几乎与真人无异。
根据语音质量评测指标MOS(Mean Opinion Score)验证,小P全新AI声音的得分为4.49分,是目前微软MOS语音质量评测得分最高的车载语音助手。MOS是一项国际通用语音质量评测方法,它是在与真人声音对比评估下,判断这个机器声音多大程度像真实人声,满分为5分,分数越高证明声音越完美,越接近真人,越令人舒适。
当然,MOS评分不能完全完全「神化」。MOS最早源于电话的语音质量评价。这项评价标准由ITU(International Telecommunication Union,国际电信联盟简称国际电联)在1996年,作为囊括在《P.800: Methods for determination of transmission quality 》中的一个「子标准」沿用至今,字面意思不难看出,这是个围绕「主观」(subjective)——也就是人工听觉、人工打分的一项判定方法。
别看MOS古老(那时TTS还未普及),作为一个成熟、稳定、高度逼近人类听觉体验的评价标准,MOS的制定最初建立在一套有参考信号的评价体系之上的:评价时,同时需要待测信号和参考信号。相较于无参考评价方案,有参考的客观评价方案更容易做得贴近主观评价体系。
实际上,全新AI声音采用24K采样技术(现有声音为16k),各种场景下的声音反馈都被精心调教,用户听到的每句话都细腻生动、充满活力。
为了让小P全新AI声音能顺利带给用户,小鹏汽车解决了时延、网络抖动、如何与应用结合等多方面技术难题,并利用智能网络预测算法预测车辆当下的网络情况。通过端云融合的语音合成方案,已做到97%的超高在线率,弱网和无网情况下也不用担心音质受损,给用户最极致的语音体验。
凤凰网汽车公众号
搜索:autoifeng
官方微博
@ 凤凰网汽车
报价小程序
搜索:风车价