凤凰网汽车

凤凰网汽车>全媒体>正文

顾维灏用“DARPA九问”回答毫末城市NOH实践经验

2023年05月17日 12:20:01

分享到：

来源：电驹

1975年，时任DARPA（美国国防部高级研究计划局）局长的乔治·海尔迈耶提出了著名的“海尔迈耶问答法”，这一思考方法由九个基础问题组成，此后帮助DARPA成功在隐形飞机、太空激光、太空红外技术和人工智能（AI）等项目上取得重要成就。

这一方法被称为“DARPA九问”，DARPA的项目都是围绕这一方法来评估和管控技术风险。

DARPA九问，代表了DARPA那些“雄心勃勃”提案的标准，既要有足够的创新性，有改变世界的目标，又要切合实际，有真正实现的可能。

在4月上海车展期间的闭门活动中，毫末智行CEO顾维灏采用“DARPA九问”的方法，系统地阐述了毫末所走的自动驾驶AI之路。

顾维灏在演讲中强调，毫末很早就确定数据驱动的路径，也是国内最早引入 Transformer 大模型、最早确立重感知路线的自动驾驶公司，同时毫末还发布了 DriveGPT 自动驾驶生成式大模型。

数据驱动

在演讲中，顾维灏首先提出了第一个问题，毫末想做什么产品？产品目标是什么？

顾维灏的回答是，毫末真正要做的是完全无人的自动驾驶，但是判断这件事情短期内实现不了。毫末选择的路线就是，先潜心研究L2+的辅助驾驶。

随着用户的大规模使用和技术的迭代研发，依靠数据驱动的方式实现自动驾驶能力的快速上升。毫末的高速NOH和城市NOH都是达到L4自动驾驶目标的过程。这个过程会非常有意义。

顾维灏提到现在正在发生的一些现象：“现在等红绿灯的时候路上按喇叭的越来越多，因为很多人都会看手机，看短视频。过去是开车时不能看手机，逐渐变成开车时偶尔可以看手机，最后变为看手机时偶尔开车。这是一个逐渐放权的过程，也是一个技术逐渐进步的过程”。

顾维灏强调：“安全是所有自动驾驶和辅助驾驶最主要的目标，我们要帮助用户，比如说在车里开视频会议无法立马结束，在这个间隙如何能够保障车辆的安全行驶”。

对于城市NOH产品，为了能够在复杂的城市道路场景当中保证安全底线，毫末在红绿灯控车、路口通行以及移动行驶这三个很重要的场景来设置产品目标。

首先，在红绿灯识别控车方面，毫末识别准确率必须要达到99.99%以上。这并不是一项简单的任务，因为在我国不同城市的红绿灯都有各自的形状和特点，有三排灯，有五排灯，有横着的，有竖着的，还有创新的，而且黑天和白天的红绿灯识别难度也不相同。

其次，在路口通行方面也非常具有挑战，路口场景有直行，有左转、右转，还有Y字形、三岔口、六岔口等。毫末直行通过率要做到99%，复杂路口也要达70-80%，在产品设计的时候就按此来定义目标。

第三，是移动行驶。毫末的城市NOH要解决在什么样的车流状况下运行最好，这里就涉及产品定义，包括使用的通过率是多少，以及如何保障用户的安全。

Transformer+重感知路线+Drive GPT

这里就要回答第二个问题：已有的相关产品是什么？产品局限是什么？

毫末的回答是采用重感知技术来做城市NOH，要解决基于高精地图路线的区域限制和成本限制的问题。

顾维灏对于毫末在自动驾驶AI上的创新研究，进行了一番回顾。

毫末早在三年前，也就是在2020年下半年开始启动NOH项目，启动之前“蔚小理”都已经开始研发，当时行业基本都采用英伟达Orin芯片+高精地图技术路线。但高精地图由于成本因素、政策限制、鲜度保持等方面存在诸多难点和问题。

在这种情况下，毫末要么选择追随行业模式，要么另辟蹊径寻求新路径，毫末给出的答案是：锚定重感知技术路线。技术产品研发与市场落地应用有着一定的时间差，事实证明这一技术路线目前已成为行业共识。

顾维灏解释“中国高速公路一共有30万公里，城市道路1000万公里，市面上最牛的地图公司采集车也不过才200台，1000万公里用200台采集车采集，而且要采集很多要素，在中国的基建条件下可行性不高，依赖高精地图方案的话会在城市行驶边境拓展、地图的一致性、驾驶的安全和稳定性上都会产生影响和问题”。

对于第三个问题：毫末采用的方法有哪些创新之处？顾维灏做了如下回答：毫末进行了三场技术创新的攻坚战。

第一个创新是，毫末将感知方法从CNN模型转型到Transformer大模型。

随着自动驾驶感知能力的不断提升，摄像头的数量在不断增加，传统的卷积神经网络CNN模型在处理大规模图片信息的时候会遇到效率低下的弊端。

在2020年底的时候Transformer大模型已经在自然语言处理上开始应用了，毫末在2021年初就把Transformer识别图像的方法开始跟行业讲述了，现如今许多企业也开始使用Transformer技术。

第二个创新就是，毫末不再用高精地图。

在2021年的时候，毫末开始研究不使用高精地图的辅助驾驶方案，在最早期高精地图是有用的，十几年前摄像头像素只有一百万，计算力只有2.5T，但现在算力都300多T，外界环境发生了变化，就会促进技术方案随之变化。

基于更多的前视、后视的测试方法、Transformer大模型以及BEV感知模式，这些技术的加持可以让毫末NOH看得更远、看得更广，无论是左转、右转都可以精准识别。

第三点创新就是，毫末在最近一次AI DAY上发布的首个自动驾驶生成式大模型DriveGPT。

顾维灏提到：“得益于去年毫末就与火山引擎合作搞了一个自动驾驶智算中心，规模可以说是自动驾驶领域的第一。

毫末很早就意识到云端计算大模型一定是发展趋势，云端计算如果用公有云就太贵了，如果建立私有云操作中心一定会更划算。

有了自己的智算中心加持，DriveGPT以大数据为基础，加上GPT这种新技术范式，再加上使用过程中有了用户的反馈和对能力的判定，加起来使得自动驾驶能够可行。”

另外，顾维灏还提到，毫末有自己的算力、模型和大规模量产应用场景，就像OpenAI可以基于微软提供的算力、数据和应用环境一样同时具备这三要素。

但是中国同时拥有这三个要素，并想做这件事情的公司少之又少，所以毫末才可能把做的所有方法都发布出来。

毫末的成功会带来哪些改变？

当GPT出现之前，会分很多子研究方向和子研究任务，比如说机器翻译就是非常封闭的方向，像文章摘要、文章的理解或者分词等，每一项自然语言都是一个一个独立的小任务，直到ChatGPT出现，这些小任务都不存在了，只用一种方法就把自然语言所有问题都解决了，而且还可以不断推理，抽取常识，类比到自动驾驶也是一样。

顾维灏直言行业内已经搞了20年，基于规则也好，基于小模型也好，包括预测、规划、决策、控制，每一项都分成一个个小任务，20年也没搞成。

因此毫末将DriveGPT这样的方式引进来，先搞定认知的问题，把感知的四个大模型任务合为一个，那自动驾驶从此就两项任务，一个是感知任务，一个是认知任务。

因此DriveGPT或是说GPT这种新的科技范式会让自动驾驶产生质的变化并且和以往完全不同。

值得一提的是，毫末推出的自动标注，在行业上，给出正确的标注结果，一张图片需要5元；如果使用 DriveGPT雪湖·海若的场景识别服务，一张图片的价格将下降到0.5元。单帧图片整体标注成本仅相当于行业的1/10。

接下来，毫末会将图像帧及 4D Clips场景识别服务逐步向行业开放使用，这将大幅降低行业使用数据的成本，提高数据质量，从而加速自动驾驶技术的快速发展。

演讲最后，顾维灏也介绍了时间、成本以及如何验证成功等问题。

做自动驾驶周期一定是漫长的，面对终极目标——完全无人的自动驾驶Robotaxi，维灏也给出了他们的计划“当毫末城市NOH被数万个或者数十万个用户用起来的时候，并且平均MPI达到一定水平，我们就可以启动这个赛道产品了”。