凤凰网汽车

凤凰网汽车>行业>访谈>正文

理想勾晓菲：智能座舱远未成熟，尚处初级阶段

2023年04月19日 00:29:09

分享到：

来源：凤凰网汽车

凤凰网汽车车展访谈 4月18日，2023上海国际车展开幕，在车展现场，理想汽车发布了“双能战略”，在“智能”和“电能”两个方向上全面发力。

“智能”方面，理想AD Max 3.0的城市NOA导航辅助驾驶将于2023年第二季度内开启推送，并于年底前完成100个城市的落地推送。“电能”方面，理想汽车推出800V超充纯电解决方案，正式迈入“增程电动”与“高压纯电”并驾齐驱的新阶段，到2025年，将形成“ 1款旗舰车型+5款增程电动车型+5款高压纯电车型”的产品布局，面向20万以上的市场。

在接受凤凰网汽车专访时，理想汽车副总裁勾晓菲表示，在电动领域，理想首发800V高压快充技术，可实现“充电10分钟，续航400km”的补能效果，让用户拥有类似于“加油”般的充电体验。

“智能”方面，勾晓菲认为，“在智能化的发展过程中，智能驾驶的达成时间将早于智能座舱，目前，智能座舱尚处于从功能机到智能机转换的初级阶段。”

正在加载中...

以下为访谈实录：

主持人：第一个问题是围绕车展，想问一下在这一次车展上我们在智能座舱方面带来了哪些新技术？

勾晓菲：此次车展，我们最重要的是今天上午刚刚发布的“双能”战略。

电动领域，首发800V高压快充技术，可实现“充电10分钟，续航400km”的补能效果，让用户拥有类似于“加油”般的充电体验。此前，理想One走增程路线，核心点就是我们认为当时的技术无法为消费者提供高效补能体验，800V高压快冲可以在10分钟给用户提供400公里续航。在电能方面实现这一突破后，我们才开始进入纯电领域。

在“智能战略”方面，我们将基于软件2.0能力，打造全新的“智能驾驶”和“智能空间”的技术平台，并提供卓越的AI智能用车体验。在“智能驾驶”方面，发布了AD Max 3.0版本，6月底将释放城市NOA功能（点对点高阶辅助驾驶），覆盖一百个城市。

主持人：我想问一下您认为目前对于用户角度来讲，因为我们知道如果想好这件事，对用户的需求、认知和把握更深层次，您认为作为现在新能源用户，尤其是年轻人，大家到底需要的是什么？比如是更智能化内在操作，还是先要解决续航焦虑，它是非常综合性的，想看一下您对于用户痛点的理解。

勾晓菲：我认为和“双能”战略类似，续航和能源战略是一大痛点，需要优先解决，紧接着就是智能化。

大家都说智能化方向非常卷，每次车企新车发布会都发布很多功能。我认为，目前，智能化类似之前手机从功能机到智能机转换的核心窗口期，汽车处在这个窗口期。比如之前手机功能期时卷功能，发布一款新的手机支持发彩信、拍照、视频电话，大家都在拼命发布这些功能。

主持人：后来又卷硬件。

勾晓菲：大家都在发布会这些功能，但我们看现在的智能手机，比如我找人问智能手机有什么功能，我相信没有人说得出来，因为很多功能无法看到，因为功能太多了，想干什么都能干。

主持人：而且我们已经习惯运用它了，已经变成一个习以为常的习惯了。

勾晓菲：对，这个就相当于整个汽车面临的转型过程，今天为什么卷，因为它还没有脱离功能车的属性，等到它真正跨入到智能车这个品类的时候，大家就不会太在意功能了，因为很多想要的功能都有了。

主持人：都变成了标配。

勾晓菲：对，我们一致认为都需要三个阶段，第一个阶段做电动化转型，只有电动化转型才能完成，我走入车展，有一些友商打出的口号是全场景用车，我觉得所有场景用车的真正意义是我这个车除了出行场景以外还有更多的场景可以使用，比如说能源的转换，我在车里看电影，但是我家是一个车库，如果我是燃油车我就没办法看电影放松，我启动了以后有大量的尾气排放，在密闭的空间就会变成毒气，完全达不到所谓的全场景。

第一就是能源模式有所变化，第二大家现在都在说智能驾驶感觉不是特别强，但智能座舱很强，但是在我们看来第二阶段最终先达成的一定还是智能驾驶，因为只要智能驾驶不实现，座舱里的体验再好还是要开车的，这个价值没办法充分体验。

主持人：你考虑的是频率，因为对一辆车来说出行还是更加高频率的？

勾晓菲：对，只有假设达成了之后，座舱才会变成一个百分之百可以被舱内所有人使用的空间。

主持人：它是一个锦上添花的，但是自动驾驶是一个必须品？

勾晓菲：也不是锦上添花，我们对它的定义是电动化和自动驾驶是入场券，能不能到下一个赛道或者拿到下一个阶段的门票，只有通过了这个阶段才能进入到下一个赛道，但是最终决定了你这家企业的上限。

主持人：因为我是一个女性用户，包括我带家人上去大屏的操作非常酷，我们说这样的智能座舱对普通消费者来说，他会更容易给我们营造你很酷，但是前两个阶段也很重要，我们说智能驾驶也好，但是在现在城市道路的环境没有完全跟上技术的发展，在第一个阶段反而是很难的，需要大量的技术创新才能让我们的发展速度更快，其实你们已经想好了三个阶段怎样走。

勾晓菲：对。

主持人：我还是比较关注座舱板块，传统燃油车他们也开始玩一些非常花哨的功能，你怎么看待他们这种行为？

勾晓菲：汽车圈里的人有时候会私下聊这个话题。我听到一种观点，认为今天的智能座舱已经卷得很厉害了，感觉手里的牌都打进去了，差异化也好，或者未来的成长空间没有太大了，好像已经到了智能座舱的终局了。

但在我们公司内部，我们认为今天的智能座舱还处于初级阶段，即从功能机到智能机的转型期。像您刚才提到前后排都有屏幕，我们为什么会放这些东西，它不是一个花哨的功能。去年L9发布的时候，我们就认为智能座舱的空间交互一定不是触摸。比如咱们可以简单想一下，什么产品适合触控？一定是终端跟着人走的产品，比如说手机、Pad，我到哪它跟到哪。但是车上的屏幕更像电视，这个设备在哪儿你人得在哪儿，人跟着设备走。这种情况下，用户体验就会不好，比如我不愿意换台跑到电视身边换，在车里也是一样的。乘客如果距离屏离特别远，根本够不到，这个功能就很反人性。

主持人：这个语言已经解决得蛮好了。

勾晓菲：对，这就是我后面想说的。今天我们首先可以判断的是触碰并不适合座舱终端，基于对话交互更加适合智能空间和智能座舱。这并不像我们之前理解的纯语音，我们之前理解的纯语音更多是目的式的，我们很难想怎么说就怎么说，然后它才能听懂才能执行命令。但人与人之间的交流不是这样的，而是我们想到什么就说什么，语言表达更自然。

Chat-GPT的出现意味着能够更自然的对话技术已经近在眼前，如果后期座舱的对话基于语音转型，改变的不仅仅是语音的命令，所有的交互体系都会发生变化。比如，今天座舱是我给你什么，你就能用上。屏幕上有一个空调按钮，按下去空调就会打开。如果想做亮度调节，那我先要照片系统设置，再一层一层的布置，这是机器的表达方式，按照层级把能力排好了。但如果真的纯基于对话的模式，是不会考虑层级的，我不在意你的亮度调节，我在意的是我要亮度调节，那时，整体的UI一个屏幕上就一个理想同学，我说我现在要调亮度，它马上自动生成一个UI，他会和我说，亮度调节的选项有前排车载屏幕亮度，后排电视，车内灯光，我想调HUD，它会说HUD可以然后调好，完全是我想干什么它就根据我们的想法生成UI给我，完全基于对话的逻辑角度。

主持人：它能听得懂你要干什么。

勾晓菲：在底层交互框架的基础上，座舱和手机、电脑最不一样的一点是手机和电脑属于一对一的终端，我的手机永远都是我自己在用，座舱会服务每一个人，我们在构建整个交互框架和体系的时候不但要考虑底层的交互到底用触控还是对话语言的形式，要改善这个问题，同样还要解决对于空间整体的感知和表达的能力，至少要知道这个空间里到底是谁在说话，谁需要提供服务。

主持人：这个我要返回一下，完全是能够识别到到底是谁在讲话。

勾晓菲：对，能识别到底是谁，要具备空间表达能力，我需要把输入的声音投放到那个位置。比如，我说理想同学来到我身边和我对话，信息就会就近投放，当和我完成交流后又回到原来的位置。或者说今天我在座舱里玩成语接龙游戏，声音应该出现在正中间，我来帮你们串场。这就是空间表达的能力。

基于底层的对话能力，加上空间交互能力、空间感知表达整体的能力，才能合并称为空间交互方法。因为我认为，最终的用户框架一定会支撑出一个新的生态。大家还在卷功能，我们一直在创造一个新的生态，我觉得这是不同维度的打法。比如，刚才那个体验，我们每一个细分体验上都在思考机器和人之间的交流怎么能够更像人和人之间的交流。比如刚才您提到对于空间声音的感知，不同位置上不同人下命令都能感知到，之前我们用到的技术已经经过好几轮进化了。我们布置了很多麦克风，能够看出来是哪个区域在说话，慢慢进化成深度学习能力，包括声音的很多参数都会融合进来，一起精准的计算出说话人的位置。

再后来，我们加入了波速追踪技术，相当于当你说话时身体在主驾，后来跑到副驾，我们会追随你的声音跑到副驾。这个单纯依靠传统技术是无法实现的。

怎么样能够更像人呢？其实我们人与人之间的交流不单纯是靠声音和方向，我们会靠声音的音色，相当于我说话的声音和你说话的声音是不一样的，比如说有第三个人和我们三个人一起聊天，只要说几句话就会发现我的声音是这样，未来我们会把音色的感知融合进来，这样这台车通过说话就能认得声音，判断谁在说话。

主持人：每一个内容体验到的新功能，我也知道您一直非常关注前沿科技，我最后一个问题比较好奇，还有哪些技术未来在车内可以应用到的？比如AR、VR，把前面的屏幕全部变成虚拟的显示，背后都是需要不同领域的技术，您认为在汽车上面吸纳了很多技术才可能变成现在的手机，汽车如果再往前看一定需要不同的技术，还有哪些您认为可以给车内带来可能性的？

勾晓菲：比如说人和人的交互可以分为三个过程，感知、理解、表达，感知相当于可以看到，耳朵可以听到你说话，理解就是你说的话通过你的肢体语言配合我自己的知识，我就会做一些逻辑的推理和判断，对你说的话有一些理解。我可以通过语言的方式，通过表情的方式在听觉在层面上得到了一些反馈，这是人与人之间的交流方式。

我们在整个技术上基于感知、理解、表达，感知层面我们想建立三维的空间，一定要具备三维的视觉、听觉的感知力，能感觉到这个空间里都坐了谁，每个位置上大概是什么样的角色，有了这样的数据进来之后，后端理解的部分首先要感谢Chat-GPT的伟大贡献，有了大量的信息输入就需要一个很强大的技术储备，我们总说以前的手机、电脑、智能终端，因为人类感知这个世界是通过五感，我们把这五感算作百分之百的通道，其实视觉和听觉占到所感知信息量的95%，其它的触觉、嗅觉、味觉基本就是1%、4%。智能终端用触觉来够受整个世界。

主持人：都是指令。

勾晓菲：对，手机、电脑等终端不需要很强大的理解力，但是当我们的感知能力由触觉升级到视觉加听觉的时候，相当于这台机器的整个物理感知更丰富了，约等于接近百倍。这么大的信息量必须有足够强的算力支持，有了这些足够强的理解能力，我需要把我要表达的信息传输到这个空间里，而不是感觉一个虚拟的服务你的形象永远在一个位置，它可以根据不同的场景做出调整，信息也是一样的。我举一个小例子，比如我现在用语言导航，理想同学导航到车站中心，它可能会出现一堆路线供我们选择，我也不知道到底选哪个，因为我在开车。这个时候后排坐着一个人，所有的信息可以投放到后排。所以，我们需要有这种空间表达能力，这是一套完整的智能化方案。

至于HUD屏幕多大，我不认为这些会成来未来的核心技术，我认为支撑交互体系的基础技术，即未来的智能空间一定会和手机一样严重同质化，因为这些在消费领域已经被验证了。