汽车 > 汽车资讯 > 正文

李想：端到端只能解决L3 解决不了L4

易车

下载客户端
独家抢先看

2024年12月26日 20:46:29 来自北京市

易车讯 在12月26日举办的2024理想AI TALK活动中，理想汽车CEO李想做客直播间，并回答了AI人工智能、自动驾驶等问题。

在节目中，理想汽车智能驾驶研发负责人郎咸朋表示，高速城市全场景升级端到端+VLM，以及创新的AI推理可视化的交互，将在近期随OTA全量推送给所有的AD Max 用户。此外，郎咸朋还表示，按照现在的端到端+VLM这套体系，能力继续迭代的话，我们是有希望在2025年去实现L3的。

针对L4级自动驾驶，李想表示，端到端是自动驾驶只能解决L3，解决不了L4。给我三年的时间，它需要技术到位，也需要产品到位，也需要一些环境和政策到位，也需要消费者对于人工智能的信任到位。

在技术上，李想认为，真正实现L4需要拥有500万辆以上车型的数据。第二你要真的自己掌握 VLA（视觉语言行动模型）这个基础模型的能力。第三，你要有足够多的钱去招募最顶级的人才，以及足够的算力

以下为采访原文：

Q：听说李想对智驾发了很大的火，你怎么还能留在这？

郎咸朋：当时想哥说了一句很狠的话，他说郎博下半年如果我还看不到变化，咱们还是拿不到头部位置的话，那你这个负责人就可以不用干了。

Q：那次发火完之后达成了什么结果？

郎咸朋：我觉得大家就回归的是体验和用户价值，重新把大家的思路聚拢了。我们是给用户做一个有更好体验、更安全、更便捷的产品，而不是说做一大堆什么从指标上看起来挺好的产品。那次所有人心里边又重新回到从产品出发去做智能驾驶，这是我觉得印象最深的一点。

Q：你们是那次之后开始转的端到端吗？

郎咸朋：其实在想哥发火之前，我们内部的这个端到端的预研，已经在开展了。那么从那一刻开始，我们端到端的速度就加快了。

Q：第一次试驾端到端是什么样的体验？

郎咸朋：我第一次试到这个车，从中关村开到了北京交通大学。开了几公里我就问旁边的贾鹏，这是规则还是怎么做的？怎么我觉得开得这么好呢？他说一句规则都没写，全都是系统按照咱们给它的数据自己训练出来的。

咱们开车都知道，如果前面有个车刹停的话，它是要缓慢减速，甚至还再抬起一点刹车，有这样非常舒适的刹车过程。这个过程我们团队在规则阶段写了很长时间的代码，都没有达到一个完全拟人、解决所有场景的表现。

但我第一次试驾端到端，它的纵向就已经比之前试过所有的都要好的状态，这才用了短短不到15天。所以我觉得那时候建立了一个信心，就是端到端一定能做出来。而且一旦它做出来，就一定会比现在所有的智能驾驶软件都要好。

Q：既然端到端是灵丹妙药，为什么去年不上？特斯拉去年就上了，你去年在干嘛？

郎咸朋：我们在等，等足够的数据和算力，等到了我们就能上了。

端到端 VLM大模型其实最终的本质是用人工智能来做自动驾驶。人工智能的三个要素：算法、数据和算力。这三个要素必须全都齐备。我们是今年是准备好了，所以我们能做这个事情。

理想AD Max车型的销量，去年起来了之后到今年初（高质量训练）数据量达到10亿（公里）左右规模，这是一个基础。第二是算力基础，今年初我们算力也到了5EFLOPS。再加上第三步，就是端到端的一些预研也有一定成果，所以到今年初是天时地利人和，可以做这个事情了，去年我们还在补课的一个过程。

Q：为什么很多企业的端到端是两个模型，而不是One Model？

郎咸朋：这个是算法和理念的问题。我们要做端到端时就给自己定了一个目标，一定要用纯数据驱动的方式来做这件事情，而不是结合了之前的规则来做，所以说它的性能上限会非常高。

Q：为什么理想是端到端+VLM，不像特斯拉只用端到端？你们对自己的端到端不够自信吗？

郎咸朋：不能这么讲，我们在做技术方案时充分参考了世界上所有的先进方案，但始终无法解决一个问题是，当一套自动驾驶或智能驾驶系统，它工作时如果遇到之前没有见过的场景，应该怎么处理？我们认为就是端到端+VLM，就是系统1+系统2的方式，很好地模仿人类大脑的工作方式。

Q：如果智驾一号位想要推动智能驾驶的投入，老板会成为阻力吗？

郎咸朋：没有，反而李想一直在催促我：郎博，咱们自动驾驶怎么还是慢了？赶紧加快速度！

Q：特斯拉没有用激光雷达，你们为什么要用？

李想：很多人不太理解说：为什么要保留激光雷达，还是为了安全。是不是因为你技术不好？不是，中国和美国是不一样的，如果你经常在中国晚上夜路开车，你会看到有尾灯坏了的大货车、甚至可能尾灯坏的大货车会直接停在主路上，至少我们今天的摄像头，能够在深夜里没有光线下看到的距离，其实只有100米出头。

但是激光雷达，在没有任何光线的情况下是可以看到200米的。这就可以帮助我们实现130公里/小时的AEB自动紧急制动。那我觉得这个是非常重要的，因为我们是个面向家庭的车，每个人生命安全都非常的重要，所以这是我们继续保留激光雷达根本所在。而且后边的车型仍然会保留。我相信如果马斯克在中国，在深夜里不同的高速开过车，他也会选择把前面的一颗激光雷达保留下来。因为特斯拉对于安全同样地重视，只是他要在这个环境里来看到。

Q：理想激进的用只有一个模型的端到端，其他车企还在用两个模型，为什么？

李想：很多时候可能跟我们有一些比较好的外脑有关，像王兴、陆奇博士，他们会给我们带来很多启发。有一次陆奇博士跟我们讲，你们应该思考一下人是怎么工作的？我觉得这个当时对我们帮助很大。

今年初我还逼着智驾团队去美国，他们在不同的城市开FSD V12。另一方面我们研究工作也在进行，那时已经在发端到端+VLM的各种研究论文了。回来以后我觉得要么你做这个，要么我们就不要再做自动驾驶了。今天你靠这些规则上来做的，跟请个供应商做出来的东西有啥区别？没有啥区别。

我说服郎博他们很重要的一点，我说你们经常解决了一个Corner Case（极端情况），又出现三个其他的Corner Case。你们一辈子都在解决Corner Case，解决不完。

Q：过去两年在人工智能上，你有什么哇塞Moment吗？

李想：ChatGPT 肯定是了，其次我们内部还是有很多“哇塞”的。一个印象最深的是，我们决定启动端到端并匹配好资源，准备好200人团队，他们训练了几十版模型，第一版放到车上，当时郎博让我们来试，我跟张颖（经纬中国合伙人）在北京研发总部正好就一起试了。张颖坐主驾我坐副驾，当时我就很惊讶：这一个月的训练，比过去三年做的东西，进步速度要快！

张颖之前试过无图NOA，当他试到端到端时发现这跟人很相似，甚至在一个路口，旁边有辆车为了躲行人往我们这边躲时，这个车也适时地避让了。他问为什么能躲那么快？我说端到端响应速度快了好几倍，因为他是个One Model，而不是经过4个步骤。

我们下一个大版本更新时，用户可以在车上直接很清楚地看到端到端的工作方式是什么样的，视觉语言模型工作方式是什么样的，以及人工智能到底是怎么工作的。

Q：你说自动驾驶是能力、辅助驾驶是功能，两者本质区别是什么？

郎咸朋：功能是预设条件，能力是应对所有条件。你不可能穷尽所有的预设。

功能的话，还是用上一代的这种软件1.0方案来做自动驾驶。最大的问题是在研发之初，就要清晰地设定所有条件、所有边界，以及最终确定性的结果。这在自动驾驶里是非常困难的。

能力的话，是用人工智能的方式来做自动驾驶。当我们把自动驾驶当成能力来开发，从最本质思考人是怎么学会开车的。最开始人去驾校学习，掌握基本驾驶技能再考试。考完掌握基本能力之后，作为实习司机一边实践一边提升能力，慢慢地成长为老司机。我们系统1+系统2的方案，让自动驾驶系统拥有这种能力去迭代和成长，随着数据量的增长，它会慢慢地让性能随之提升，这个就是大家经常说的规模效应。

Q：有监督智能驾驶阶段，理想交付给用户的产品长什么样？

郎咸朋：全场景的、一体化端到端产品。要想实现有监督智能驾驶，一个前提是实现车位到车位，也就是解决最前面一百米和最后面一百米。以前智驾是从干道开始，现在可以从小区车位开始，然后包括园区道路、泊车、城市道路，还有高速和收费站ETC都会全部打通。

高速城市全场景升级端到端+VLM，以及创新的AI推理可视化的交互，将在近期随OTA全量推送给所有的AD Max 用户。

Q：L3什么时候实现？

郎咸朋：按照现在的端到端+VLM这套体系，能力继续迭代的话，我们是有希望在2025年去实现L3的。

Q：要实现这样的目标，需要储备多少算力和数据？

郎咸朋：要达到500公里的综合MPI（城市+高速综合接管里程），预计需要2000万Clips（视频片段）的水平。如果2000万Clips从不到5%的老司机去筛选，这里隐含的数据量，要达到50亿公里甚至上百亿公里的水平。

Q：什么时候理想意识到，智驾对于卖车是有帮助的？

郎咸朋：从实际表现来看是从今年开始的，今年智能驾驶确实对于销量有非常好的促进作用。我们2月AD Max的交付量占比只到20%左右，然后到今年下半年超过50%了，这是实打实的业绩。早期大家认为自动驾驶是一个功能，它跟座椅加热没有大的区别，并没有解决用户日常出行的舒适性。直到现在我们用AI来做自动驾驶，端到端+VLM真正解放用户长时间的驾驶疲劳。当我们能达到综合MPI（城市+高速综合接管里程）100公里、几百公里时，大家就真正愿意为自动驾驶买单了。

Q：你现在开车智能驾驶占比是多少？

李想：大概80%左右。

Q：剩下的20%是因为你们技术不够行吗？

李想：最主要是我赶时间。

Q：端到端是自动驾驶的制胜法宝吗？

李想：我觉得端到端只能解决L3，解决不了L4。

Q：什么时候可以100%用自动驾驶？

李想：给我三年的时间，它需要技术到位，也需要产品到位，也需要一些环境和政策到位，也需要消费者对于人工智能的信任到位。

Q：电动车这场仗什么时候能分出胜负手？

李想：现在中国的汽车仍然非常内卷。电动化和智能化是两场仗，电动化其实是相当于是一张门票，我认为L4会分出来真正的胜负。但是我们今天在做的所有事情，是为了L4拿门票，因为L4所需要花的钱，所需要拥有的能力，所需要的数据量，是今天所不具备的，所以今天大家要靠这个东西去拿L4的门票。

Q：拿L4的门票需要什么条件？

李想：足够多的车跑在路上。

Q：多少车？

李想：得500万辆以上。第二你要真的自己掌握 VLA（视觉语言行动模型）这个基础模型的能力。第三，你要有足够多的钱去招募最顶级的人才，以及足够的算力，有这三个条件。

Q：当满足这些条件且做到足够优秀时，能做出一家像苹果这样的公司吗？

李想：一定会的，一定会的。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

李想：端到端只能解决L3 解决不了L4

亲爱的凤凰网用户:

第三方浏览器推荐: