理想汽车GTC 2026发布MindVLA-o1 自动驾驶升级通用物理智能体
汽车
汽车 > 汽车资讯 > 正文

理想汽车GTC 2026发布MindVLA-o1 自动驾驶升级通用物理智能体

网通社快报 3月17日,在NVIDIA GTC 2026大会上,理想汽车基座模型负责人詹锟发表题为《MindVLA-o1:开启全能范式——下一代统一视觉-语言-动作自动驾驶大模型探索》的主题演讲,正式发布下一代自动驾驶基础模型MindVLA-o1。

詹锟在演讲中表示,视觉、语言与行动统一的模型架构,已让相关系统从单一自动驾驶模型,逐步演化为面向物理世界的通用智能体。基于同一套VLA模型,除车辆控制外,还可扩展至机器人领域,自动驾驶只是物理AI的起点,该类基础模型未来将驱动全新的具身智能范式。

此次发布的MindVLA-o1,以原生多模态MoE Transformer为核心架构,通过3D空间理解、多模态思考、统一行为生成、闭环强化学习、软硬件协同设计五大技术创新,构建了面向物理世界智能的自动驾驶基础模型,实现了自动驾驶系统感知、决策、执行、迭代、部署全链路的能力升级。

五大技术创新分别对应自动驾驶核心能力的多维度优化:3D空间理解技术实现了语义理解与三维感知能力的融合,提升模型环境感知的边界与精度;多模态思考能力通过隐世界模型实现未来场景的预演,强化模型决策的深度与前瞻性;统一行为生成机制依托专用动作专家模块与并行解码等技术,保障驾驶轨迹的稳定性与合规性;闭环强化学习框架通过高保真场景仿真与分布式训练,降低训练成本并加速模型迭代;软硬件协同设计则通过架构优化与芯片平台适配,大幅提升端侧大模型的部署效率。

理想汽车方面披露,自2021年启动辅助驾驶自研以来,其技术架构已完成多轮迭代。2024年,端到端+VLM双系统架构实现量产交付,让辅助驾驶首次具备跨场景统一理解能力;2025年,整合空间理解、语言理解与行动决策的VLA司机大模型正式推送,截至2025年底,该模型月使用率达80%,VLA指令累计使用1225.4万次。规模化的用户验证与真实场景数据积累,为MindVLA-o1的研发提供了核心基础。

据介绍,MindVLA-o1是理想汽车面向物理世界智能核心AI框架的核心组成部分,该框架由MindData数据引擎、MindVLA-o1多模态模型、MindSim世界模型与RL Infra强化学习基础设施四大模块构成,形成了感知、理解、行动与持续优化的完整闭环,除车载场景外,该框架还可扩展至机器人及各类物理系统的智能控制。

(图/文 网通社 刘帅)

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载