凤凰网汽车

凤凰网汽车>全媒体>正文

车东西对话商汤科技联合创始人王晓刚：正探索多模态大模型自动驾驶方案

2024年03月21日 16:48:01

分享到：

来源：车东西

作者｜檀心

编辑｜志豪

车东西3月21日消息，近日，以“巩固和扩大新能源汽车发展优势”为主题的中国电动汽车百人会论坛（2024）高层论坛在京举行，与会者围绕主题，共同深度探讨新能源汽车产业发展之道，并积极建言献策。

会后，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚和车东西在内的多家媒体进行了交流，回应了关于大模型、数据中心等问题。

1、视觉方面有优势业内第一个发布端到端大模型

在回答商汤在自动驾驶方案上的优势时，商汤科技联合创始人王晓刚答道，未来的自动驾驶技术将面向基于大模型的端到端解决方案，它以数据驱动，以视觉为主。商汤本身在视觉方面拥有比较强的优势，感知能力很强，感知模块是基于AI和神经网络的，商汤在这些方面的能力都很强。

商汤还于2022年底业内第一个发布了端到端自动驾驶大模型UniAD，并且这个工作在2023年国际计算机视觉与模式识别和计算机视觉大会（CVPR）评选为最佳优秀论文，2023年9月份特斯拉也宣布未来自动驾驶量产路线将会采用端到端的方式。

此外，商汤又进一步提出了多模态大模型自动驾驶方案，允许人机交互，通过自然语言输入实现更加智能的自动驾驶系统。输出不仅包括感知结果，还包括规控和决策解释性，使得自动驾驶系统具有更好的可解释性。

他还提到，为实现大模型的推广和应用，基础设施至关重要。商汤目前拥有强大的基础设施，包括4万块GPU，能够支撑大规模智能化的发展。商汤与客户展开深入合作，充分发挥自身优势和特色，推动自动驾驶技术的进步。

2、基于大模型打造座舱大脑

在记者问道商汤大模型在座舱中的应用时，他表示，传统座舱的模式是提供一些单点人工智能功能，主机厂基于规则把这些功能进行组织，形成产品，但最终的体验还不够智能。而商汤致力于打造座舱大脑，与传统的单点人工智能功能相比，商汤的语言大模型能够实现更智能的座舱体验。通过商汤的大模型，座舱可以实现与乘客和驾驶员的互动、决策、任务规划和推理，从而提供更全面的服务和体验。

他还透露，商汤还推出了多模态大模型，结合视觉、语音和自然语言等多种模态，为座舱提供更全面、更智能的服务。这种多模态大模型不仅可以识别座舱内各种场景下的开放式问题，还能够提供更高质量的内容生成服务，包括视频和图像。

此外，商汤还有内容生成，文生图的秒画，包括文生视频，这里面有很多可以带来人机交互，内容创作方面的体验。

3、当下算力供不应求今年计划算力翻倍

在回答商汤计算中心目前的应用状况时，王晓刚表示，商汤从2018年开始建立AIDC算力中心，2022年初正式对外开始进行运营，当时业内没还有相对应的基础设施，因此他们就大力投入这方面基础设施的建设。现在数据中心对外开放，肯定是处于一个供不应求的状态。数据中心开放给了他们的客户以及合作伙伴，他们也和一些车厂合作，帮助他们去训练模型，实现数据的闭环。

王晓刚还提到，算力中心满足了他们内部所有大模型的开发，包括自然语言的模型，文生图的模型，多模态的模型，文生视频模型，AI智能体的模型以及端到端自动驾驶的模型。

他还透露，目前整个AI界的发展对算力还是处于快速增长的状态。当前商汤数据中心有4万块GPU、8200P的算力，今年他们计划推动其算力再增加一倍，到16000P的算力规模，这样能够更好地服务内部研发和客户需求。