切换城市:北京
更多应用 |
官方:微博/微信
| 车展 | 专题 | 车商通 | 商用车

凤凰网汽车

凤凰网汽车>全媒体>正文

极越贾秀江:每周花两、三千万,训练纯视觉方案

2024年05月06日 16:52:01
分享到:
来源:网上车市

极越贾秀江-图1

在2024北京国际车展上,极越宣布将与NVIDIA协作打造下一代智能汽车,从2026年开始,极越量产的车型将搭载NVIDIA的新一代集中式车载计算平台NVIDIA DRIVE™ Thor。车展期间,极越整车产品负责人贾秀江做客网上车市&智电出行&腾讯汽车联合专访间。

对于极越采用的纯视觉方案,贾秀江表示:我们现在基本上每周迭代一次、训练一次2000万元-3000万元,这个由我们承担,老百姓得实惠了。

以下是采访实录:

网上车市&智电出行:极越把自己的产品定义为智能汽车机器人,这个很好玩,你不把它定义成一台车了,它只是一台车形状的机器人,您怎么看这件事情?

贾秀江:前一段时间很多人问我,你们这是不是一个噱头,是不是想做一个宣传。在此,我要声明,绝不是噱头。我们初心就是想做一个类似机器人的高度智能化产品,比如纯视觉方案。其实纯视觉也好,语音交互也好,背后的所有基础和核心都是AI的能力。AI的能力里面最核心的又是对图像的识别、感知和理解,对于语音的感知、识别和理解,这些如果相通了以后,做一个车也好,或者是做一个两足机器人也好,人形机器人也好,其实是类似的。

我们内部有一句话说,我们是一家以AI驱动的科技公司,汽车是我们的产品之一,这是我们的初心,也是宏大的梦想。本质上,车高度智能化以后必然会越来越像一个机器人。

极越贾秀江-图2

网上车市&智电出行:现在主流的智驾方案都是配备两、三个激光雷达,成本很高,很多消费者对于纯视觉一直抱有一个存疑的态度。比如说特殊天气,大雾、大雪,或者是高光比等等,极越在这方面会有什么特别的优势吗?

贾秀江:纯视觉方案目前在市场上是少数派,但是从长远来看我们认为这是一个最好的方案,我把这个总结为“两大、一高、得实惠”。

什么叫“两大”?第一信息量大。比如说我们随便拿一个摄像头来比,前面有800万的高清摄像头,首先这些摄像头跟人眼比,它的像素非常高,跟激光雷达比,它的信息量如果按照现在常规的128线的激光雷达比,它能获取的信息量是相差了160倍,它更多。因为128个点在扫描,它的信息量跟800万的没法比,这是第一点。

另外,我们车的周围装了11个摄像头,一般的激光雷达是没法比的,密度也很高。信息量大了以后有很多好处,比如说不仅可以获得障碍物的边界信息,还能知道障碍物的纹理和障碍物的颜色。举个例子,现在我们的1.4版本就可以纯视觉方案区分出来这个障碍物是植物还是建筑物。到我们的车上可以看到SR的显示量非常大,有几个场景。

比如说现在要倒车,周围如果是一些树枝、树叶,车辆就会说这些东西稍微擦碰一下没有关系,你可以慢慢靠近。如果你说边界是建筑肯定不能靠近,激光雷达就做不到。

网上车市&智电出行:对它来说都是物体。

贾秀江:对,都不能碰。植物其实可以碰,还有我举个例子,北京有很多柳树,柳树不是挂下来吗?如果是激光雷达,很可能就误判这个东西是一个墙,我们就可以判断这是植物,有几个好处,我们可以慢慢开过去。目前是刚刚开始,激光雷达只能够判断出来物体的状态,我举个例子,一个行人拎着一个行李箱在路上走,激光雷达扫描的是当时一刻,你很难感知到这个行李箱和这个人是什么样的位置,是什么样的从属关系。图像识别就可以,我们的BEV和transformer和OCC结合有一个记忆的功能。它就知道这个箱子会随着人走,如果激光雷达只知道这两个之间的相对位置关系,但是不知道会不会同时运动,你有了这个信息之后就可以提前预判说接下来箱子和人会到什么阶段?诸如此类,信息量大就特别好。因为你就看得更清楚。

极越贾秀江-图3

网上车市&智电出行:这个对算法不是很高的考验吗?

贾秀江:说得非常好,第二个大就是算力非常大。首先我们车内的算力值是508TOPS,因为信息量大,对于云端训练的要求就特别高。我们目前正式对外公布,当然还要依靠百度集团的支持,百度云计算平台给我们目前是2.2EFLOPS,相当于220亿亿次浮点运算。这个有点难理解,我们如果拿最新的苹果手机算力来看,大概是15万台手机的算力同时运算才能够训练一次。

同时依靠百度集团对我们的算力支持上不封顶。最近也有几个友商宣布了多少算力,我们可以看一下目前我们刚起步的算力就是很多人的天花板。所以第一个是我们信息量大,第二是算力要大。还有“一高”就是精度高,很多人可能就会以为说你的纯视觉,如果遇到下雨天各种各样的天气、精度是什么样的,我先讲一下,现在纯视觉精度能做到什么程度?

对于障碍物大小识别可以精确到厘米级,像矿泉水这样基本上就可以识别了。

网上车市&智电出行:怎么预判距离的识别?

贾秀江:我们有双目摄像头。

网上车市&智电出行:交叉?

贾秀江:对。交叉结合整个运动的轨迹,还有一个是运动速度的精度,刚才说是物体大小的精度。物体运动速度精度可以达到分米级每秒,这个就特别有用。我举个例子,像汇入路口的正常行驶,别人要插进来,这个时候它速度是不快的。你要能够非常清楚判断它动了还是没动,如果判断错了就撞上了。所以这两个精度一个是厘米级障碍物大小的分辨精度,一个是分米级每秒的运动速度精度。这3个是我们所谓的纯视觉技术上的优势。

还有一个说老百姓得实惠。第一,硬件拿掉了,一些友商用了3个激光雷达,这都省掉了。第二,激光雷达是有运动部件的,保养、寿命各方面。

网上车市&智电出行:颠簸对它都是损伤。

贾秀江:还有转动,这些东西老百姓得实惠了。但是我们付出了很高研发的代价。我们现在基本上每周迭代一次、训练一次2000万元-3000万元,这个就是我们承担了。

我们为什么这么做?本质上是希望能够让这个方案尽快普及,让老百姓们尽快用得到。因为纯视觉方案还有一个巨大的好处,除了前面那些以外,隐藏的好处就是它的信息源只有图像和视频,这样用大模型训练的时候迭代速度就快了。如果我用激光雷达的数据过来,就是两个模型同时训练,算力有限的情况下速度就慢了。

极越贾秀江-图4

网上车市&智电出行:优先级问题等等,好多数据。

贾秀江:对。所以从这些考虑你可以看到,我们纯视觉方案切换也只有一年多。我们在上市前大半年都有激光雷达,在上市前我们就下定决心拿掉了。但是你看我们这个体验,每个月的版本都提升得非常明显,根本原因就是刚才说的几点,信息量大,算力大了以后迭代速度快。精度又比较高,老百姓得实惠了。

网上车市&智电出行:我们累计的优势会越来越大,呈指数级。别人还在激光雷达限制范围内的时候我们已经跳脱出了一个新的赛道。

贾秀江:我们经常拿激光雷达做一个比喻,激光雷达像一个拐杖,你刚刚开始蹒跚学步的时候,它比较快,走得比较快。但是你要跑起来,这个拐杖就碍事了。

网上车市&智电出行:治标不治本。

贾秀江:对。所以我们虽然起步初速度慢了一点,但是加速度很快。不久前有一个智驾的比赛,在北京我们又拿第一了,随着全国都能开,这个事件就能够快速落地,我们在这个行业会有一席地位。

网上车市&智电出行:再跟我们说说刚亮相的极越07。这个车有哪些亮点?

贾秀江:我把07归纳为3个关键词,第一是最美,二是智能,三是掀背,最美就比较好理解了。我们为了好看做了很多的细节,这些好看不仅是设计的,其实背后是强大的智能化能力的支持,比如说我们的摄像头,我们的激光雷达,原来最初都是有激光雷达的。激光雷达拿掉,激光雷达有时候会长犄角,摄像头有时候会长犄角,有些厂商就会长犄角,我们就把它藏起来了,藏起来非常难,又好看,风阻又小。

我再举个例子,极越全系列都有车外语音交互功能,但是其实很少人发现得了收音部件在哪里。

我们车外有4对,8个麦克风都藏起来了,这些东西为了好看真的很难设计。还有我们要做环视的摄像头,你是看不到摄像头在哪的。它的很多图像转换跟处理真的是智能化到了一定阶段才能做得到。两个细节,比如说摄像头,有些厂家图象处理能力不行,摄像头就必须安装在一定固定的位置,变成像鸡眼,就不好看了。功能是好用,但就是不好看,这个就很难。还有一个超声波雷达,一般是前6后6,超声波雷达最好的角度是跟车辆平行的,垂直地面的。但是它跟车的周围不一定那么垂,所以很多时候你会看到很多厂商的超声波雷达摸上去都是凸出来的,极越是纯平的。这就会导致这个面是斜的,在斜的情况下要能够明确感知周围的距离,这个很难。

我们为了好看,左轮圈跟右轮圈都是对称的,比如说这边是车头,转的时候有一个风火轮的造型,这样一直都是顺时针。如果转到那边虽然也是顺时针,但是就不好看。车轮在这边是这么转,到那边应该是那么转的。所以为了好看,我们的轮圈都是对称的,重新做了一套,真的是为了好看下了很大功夫。

这些东西,包括门上的毫米波雷达,我们也可以用超声波,超声波十几块、二十块,毫米波三、四百,我们有4个。好看付出了很大的代价。智驾和语音,我就不赘述了。我特别讲一点它的掀背,当时我们做这个功能争议非常大,因为掀背很难做,在大空间的基础上,整个车身还要满足它的碰撞。碰撞还有一些结构性要加强,必然要带来很多成本和代价,工程上要重新做。但是我们想到开这个车的年轻人,喜欢去露营,如果后备箱打开二排座椅不能放倒,像普通三厢轿车一样,没法在里面休息,后来我们决心还是做了,而且这个溜背特别好看,这是我们的一大卖点。这个市场上别人就没有掀背的,类似的真的没有。

大部分做的像特斯拉,还有一些友商,大部分都是传统三厢轿车,实用性就不如掀背。

主要是这3点。

网上车市&智电出行:极越这个车玩的属性比较重,重度科技玩家比较尝鲜的一款产品。

贾秀江:我们的想法是这样的,新时代车内的沙发、彩电大家都做过了,我们觉得能够有创新的,主要集中在几个地方。第一是智驾,第二是语音交互,在这个情况下如果自动驾驶能力很强,人们必然对娱乐和其他跟非驾驶相关的东西感兴趣。比如说我车开着,想看看片,多听听音乐,哪怕休息的时候玩个小游戏。

我举个场景,假如说带个妹子看日出,我在山里露营,开个篝火,首先露营你这个车得有露营模式,你得是掀背,得躺得下,车外还有一个扬声器可以放音乐。三、五好友围着篝火,夜晚看星星,看月亮,车外可以跟语音说,SIMO,帮我们换一首周杰伦的歌,它就帮你做了。这个场面想想就特别的吸引人。

  • 凤凰网汽车公众号

    搜索:autoifeng

  •  官方微博

    @ 凤凰网汽车

  •  报价小程序

    搜索:风车价

网友评论
0人点赞
|
评论0
加载中...

大家都在看

趣图推荐