


过去十年,自动驾驶技术经历了从规则算法到端到端模型的演化。当前,VLA(视觉-语言-行动)模型架构又成为行业的技术热点。近日,腾讯汽车专访了Momenta 曹旭东,这位作为有着丰富量产智能辅助驾驶落地经验的实践派,在访谈中深入地谈及了他对VLA技术的看法以及实现规模化L4所需要的技术路线。
曹旭东直言,当前自动驾驶行业探索的VLM和VLA是很好的技术方向,但只能是起到锦上添花的作用,因为它们只能提供几倍到十倍的性能提升,而实现规模化L4级别自动驾驶至少需要百倍到千倍的提升。他强调,要实现自动驾驶的显著突破,强化学习更为关键,通过在仿真环境中进行大量探索和学习,强化学习可以帮助系统更好地理解安全和高效的驾驶行为。
以下为采访原文:
腾讯汽车:最近大家都谈VLA,技术方面,你有什么最新想介绍的吗?
曹旭东:VLM(Visual-Language Model,视觉语言模型)、VLA(Vision-Language-Action Model,视觉语言行动模型)是很好的方向,但在我看来是锦上添花的方向,在技术实现上其实没那么难。它可能对自动驾驶系统上线,或者系统安全性来说,会有少则三五倍、多则五到十倍的提升,但这个提升对实现规模化L4是远远不够的,规模化L4至少是100倍到1000倍的提升才有可能实现。
腾讯汽车:为什么说是锦上添花?你有没有关注到李想最近聊的内容,他大概想做一个VLA司机大模型+Agent的结合。
曹旭东:我后面花时间再多学习一下李想说的内容,好好消化。
自动驾驶它本身就是一个vision action的东西,把语言加进去,(系统安全性)能提升100到1000倍吗?我觉得非常难。
我们认为提升要用强化学习,把端到端大模型放到通过海量真实数据构建起来的仿真环境去做探索,成功就给奖励,失败就给惩罚,这个模型就能够学习到什么是安全驾驶、高效驾驶的概念。这种能力是能够把模型的上限和安全的上限、下限提升100到1000倍,甚至1000到10000倍都是可以的。
过去,一段式端到端模型是模仿学习,容易出现的情况就是“知其然不知其所以然”,所以可能在一些安全的场景就没办法很好的去反应或泛化能力。
腾讯汽车:李想也提到了强化学习。
曹旭东:当然,VLA和强化学习彼此是不矛盾的,只是说哪个更重要,我们认为强化学习更重要一些。这两条技术方案是可以结合在一起,并且是可以互补的。
腾讯汽车:我们展望未来十年、二十年,你觉得智驾技术路线应该是怎样的?
曹旭东:更好的模型、更好的数据,更好的算法。
更好的模型是指模型结构,模型结构怎么设计,输入输出怎么设计,使得这个模型天花板很高。你可以认为,一个是老鼠的脑子,另外一个是人的脑子或者大猩猩的脑子,这两个模型的大小以及模型结构是不一样的,这直接决定了这个模型能够学习到的天花板是不一样的。有些东西猩猩是能学会的,但老鼠你给它再多的数据,它也学不会。
腾讯汽车:李想说的是昆虫、哺乳动物和人类三个阶段。你们一直在延续“好模型、好数据、好算法”这个路线?没包装一下?
曹旭东:一直在延续这个路线,但我们并没有用VLA这个概念,因为VLA这个概念它跟更好的模型不是同一件事情。
VLA只是说这个模型它是Vision-Language-Action,它能干这些事,是不是真的可以用这样的模型去干这些事?我举个例子,大猩猩和人,它其实都是VLA的model(模型),猩猩人家也有语言,有可能老鼠也有老鼠的语言。就是说,VLA的model,有的是老鼠的VLA,有的是猩猩的VLA,有的是人的VLA。
VLA更好的模型,意味着这个模型上限是更高的,它有更好的视觉能力、更好语言能力以及更强的action能力。
腾讯汽车:那这个更好的model,它的核心是什么?
曹旭东:现在很难说更好的model的核心是什么,更多它还是一个实验科学,更多还是要通过一些实验。
但整体来说可能是更深的模型、更大的模型,通常来说能做得更好,但是你又得trade off(平衡),在有限算力的情况下,去选择更好的model。
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”