凤凰网汽车

凤凰网汽车>全媒体>正文

理想最强的OTA升级，其实是复刻赛车游戏和扫地机器人？

2023年12月11日 21:00:04

分享到：

来源：路咖汽车

12月10日理想召开了理想汽车智能软件发布会，公布了三项更新：AD 3.0智能驾驶、SS 3.0智能空间和REV 3.0智能增程。理想AD 3.0智能驾驶在算法方面进行了全面更新，从之前的模块化算法架构变成端到端算法架构，这种变化相当于理想重做了一套新的智能驾驶系统，除了界面UI相同，内部核心完全不一样。

这套新的智驾算法应用了新的One Model感知大模型、行为预测模型、端到端的决策网络和时空联合规划模型，将智能驾驶的感知辨别与决策都交给了AI大模型，主要目的在于通过AI模拟人类驾驶思路来提升智驾体验。理想AD 3.0拥有了更聪明的智能驾驶、辅助驾驶，以及功能更丰富的代客泊车功能。很明显理想这套新的智驾系统的实现逻辑，更像赛车游戏的影子模式和我们常用的扫地机器人。

用BEV+占用网络做感知，用一种新的思路解决智驾难题

今年智能驾驶领域都在卷城市NOA开城，余承东在智界S7发布会中表示城区NCA将在年底实现全国商用，小鹏Xmart OS 4.4.0版本将城市NOA开城数量增加至25个城市。理想通过这次OTA将开城数量增加至110城，甚至表示智能驾驶“全国都能开”，继续深化城市NOA的内卷。

车企们的城市NOA开城内卷，实际上是基于智能驾驶功能感知道路信息，大模型算法迭代驾驶决策、再OTA至车机实现迭代的流程。因此无论理想、小鹏、蔚来还是华为，城市NOA的开城数量PK考验的是车企们的算力、算法和数据积累的能力。

大多数车企智驾开城思路，都是通过通勤NOA等点到点的智能驾驶方案锻炼大模型，之后上线全场景城市NOA。理想在今年6月推送城市通勤NOA，12月实现110城的城市NOA开城，也得益于足够的数据积累。

根据AI大模型的算力、算法和数据三要素，理想在拥有双Orin-X芯片的充足算力和足够数据之后，模块化的理想AD 2.0就是必须革新的选项了。

理想AD 2.0算法架构是通过NPN网络和TIN模型来增强BEV大模型，NPN网络负责感知路面行车、行人等障碍元素，TIN负责感知信号灯意图，使用模仿学习做出更像人类驾驶者的决策。这种算法结构使用了多个小模型，最终反馈到BEV网络。但模块化架构的缺点也在于各司其职，感知大模型迭代速度慢。

理想AD 3.0算法架构做到了精简，用端到端的大模型结构取代了模块化结构。简单来说，就是一套大模型整合了之前所有模块化的小模型，传感器输入的原始数据统一输入到一个深度学习神经网络，直接输出驾驶命令。这套算法架构负责感知、行为预测、决策、规划、控制，直接输出为驾驶动作。

新的感知大模型包括了静态BEV、动态BEV以及Occupancy占用网络，用来组建整个感知地图。Occupancy占用网络用摄像头替代雷达，解决遮挡物识别的问题。传统的BEV思路是摄像头负责拍摄2D画面，激光摄像头负责将2D画面转化成为3D，定义在空间内的占据体积。占用网络的核心思路就是获得体积占用率，将世界分成微小或超微小的立方体体素，预测每个体素空间的占用状态。所以我们在占用网络的BEV鸟瞰图中，会看到像《我的世界》这种像素风画面。

提到感知，大家都会联想到华为GOD网络，但GOD网络与Occupancy占用网络有明显区别。华为GOD网络虽然同样将3D空间体素化，但主要针对于障碍物检测，华为GOD网络的数字世界空间是无数的不同形状的障碍物。而理想AD 3.0使用的是纯视觉方案，占用网络从摄像头收集数据，还原真实的物理世界。

理想AD 3.0的智能驾驶方案核心思路就是用视觉复刻一套数字版的物理世界，占用网络呈现所有物体的占用体素，决策大模型负责规避所有体素，无需标识障碍物。

这种算法优势提升在于光线敏感变化较大的隧道、复杂十字路口等场景，通过摄像头减少无法识别类型的障碍物，无需偏重大数据标注。很明显的体验升级点就是安全性，车辆能够识别大多数异形障碍物，减少碰撞事故。

赛车游戏的影子模式复刻，辅助驾驶开始模仿人类

前文我们提到理想AD 3.0系统将物理世界进行数字化还原，体现在智能驾驶方面在于呈现道路规划、交通参与者和预测模型。而在辅助驾驶方面省去了Occupancy占用网络，通过TIN信号灯意图网络和虚拟车道线来解决这个问题。

理想AD 3.0的BEV网络在城市环境内主要通过感知行车线构建，通过行车线的弯曲程度确定是否处于弯道状态来调整速度。但如果遇到无车道线或车道线混乱的路段，BEV网络就会无法识别车道边界，导致辅助驾驶退出。

车企们解决该问题大多都会使用车道居中+速度自适应的策略保持居中行驶，而理想的策略是在大模型上规划虚拟车道，让车在“车道线”内行驶。不得不说，理想这个虚拟车道看起来简单，但实际上很巧妙。

理想虚拟车道线规划的依据是道路边沿、前车行车车辙再加上车道宽度的预估，辅助驾驶系统就可以根据车辙等信息来判定前车经过这段路程所做的策略，比如靠左规避某些障碍物。在体验方面，这种虚拟车道技术实际上复刻了前车的驾驶逻辑，即“老司机怎么开我就怎么开”，进一步贴合人类的驾驶风格。

为什么仅靠看车道线就能学习人类的驾驶逻辑？其实不难发现这个技术的实现思路类似于赛车游戏。因为行车轨迹的弯曲与否，决定了该车辆会以什么角度或速度行进，大模型靠车辙推导速度与方向盘角度，从而做出决策。

简单来看，该技术很类似于赛车游戏的影子模式。理想虚拟出一个前车模型，通过行驶方向、速度的变化无限接近于该模型。喜欢玩赛车游戏的朋友，一定会对这个影子模式印象颇深。理想AD 3.0的大模型大概率都在观测车辙信息或前车的驾驶状态，为自己设置无数个影子模式，用来辅助驾驶决策。

代客泊车支持跨层停车，更像带摄像头的扫地机器人

关于代客泊车功能，这次理想AD 3.0在小鹏之后也推出了跨层地库的代客泊车，成为第二个支持该功能的智驾系统。之前华为ADS 2.0明确不支持无网络区域的地库停车，主要原因在于障碍物识别需要GOD网络标注，而理想的AD 3.0支持的代客泊车系统同样活用了Occupancy占用网络实现夸多层通道行驶。

Occupancy占用网络同样用体素呈现障碍物，BEV大模型感知车辆位置，对车辆元素进行重点标识。而车辆属于形状规则的障碍物，大多数感知模型都能够本地识别，占用网络的主要作用在于识别停车场边界，构建不规则的停车场模型。

而车库环境的特点在于低速、障碍物复杂度低，但车道环境复杂度高，理想AD 3.0的代客泊车的思路是摄像头构建Occupancy占用网络、超声波雷达用于测距、大模型做出进一步决策。

这次发布会展现的车库直角弯案例证明了这点，车辆在无法通过时会采取倒车策略，对待窄车道、直角弯这种极限状态会更换驾驶策略而非将控制权交给人类驾驶员。相对于其他品牌的夸层代客泊车方案，理想突出了中大型车体在极限路况上的处理能力。

其实所有代客泊车方案的实现形式都并不深奥，可以看成是扫地机器人的放大版，扫描到危险临近时停止前进、选择另一条路继续走。各个车型的代客泊车方案的主要区别则集中在感知方案和决策大模型上。华为代客泊车的问题在于GOD网络过于依靠远程网络辅助，从而在功能上受到一定的限制。

结论：理想AD 3.0智能驾驶的创新点在于Occupancy占用网络与BEV网络的结合，改善了标注算法的缺陷，在体验上直观的升级点就是更加安全、驾驶风格更像人类一般自然。理想从之前的多个小模型的模块化算法结构到端到端结构，这次升级让理想的智能驾驶达到了与华为、特斯拉近似的水平，值得所有理想用户升级。