21世纪经济报道见习记者 何煦阳 报道
“AI 一天,人间一年。” 一位 AI 公司联合创始人曾这样形容大模型的发展速度。
2023年3月,OpenAI发布GPT4,不久后,Sora、o1新模型诞生,AI大爆发,这些重要事件启发了诸多新势力车企。小鹏自动驾驶副总裁李力耘告诉《21汽车·一见Auto》,2023年年初,小鹏开始探索如何将端到端运用到自动驾驶领域,去年下半年,小鹏又开始向云端大模型迈进。
近日,在AI大模型技术闭门分享会上,李力耘说,小鹏正在研发 720 亿参数的超大规模自动驾驶大模型,即 “小鹏世界基座模型”。
所谓小鹏世界基座模型,是一个以LLM(大语言模型)为骨干网络,使用海量多模态驾驶数据训练的多模态大模型,具备视觉理解、链式推理(Cot)和动作生成能力。小鹏希望世界基座大模型能够真正理解、认知,甚至改造物理世界。
物理AI也是理想的自动驾驶方案瞄准的最新方向。今年3月,理想自动驾驶技术研发负责人贾鹏在英伟达 2025 春季 GTC 大会上介绍,理想在车端部署了参数为 22 亿的 MindVLA 大模型(Vision-Language-Action Model,视觉-语言-动作模型)。
在理想看来,之所以用VLA,是因为自动驾驶与机器人一样,所解决的都是AI如何与物理世界交互的问题。
但小鹏与理想最大的不同,是小鹏不在车端直接落地模型,而是先在云端训练出一个超大模型基座,然后取其精华,将“蒸馏”出的小模型部署到车端。这种云端蒸馏的技术方案已在今年爆火的DeepSeek论文中得到验证,小鹏试图通过这种方式,突破车端因AI算力稀少带来的模型上限。
这套从云到端的生产流程,小鹏称之为“云端模型工厂”。依托强大的 AI 算力基础设施和数据处理机制,目前整个“云端模型工厂”从云到端的全链路迭代周期可达平均 5 天一次。
一位新势力业内人士向《21汽车·一见Auto》评价,在布局AI大模型上,小鹏的野心更大,理想更偏实用主义。
“除了汽车外,小鹏在AI上落地了飞行汽车、机器人。后两项业务是理想和蔚来尚未踏入的领域,他们目前聚焦AI汽车。所以小鹏需要更大、效率更高的基座模型。”上述人士总结。
小鹏和理想厮杀正酣之际,同属三兄弟的蔚来却在一旁显得有些落寞。
蔚来曾是国内首个实现高速NOA全量推送的车企,但随着行业转向“无图”和端到端大模型,蔚来却稍显迟缓。
去年7月27日的蔚来创新科技日,蔚来智能驾驶副总裁任少卿发布了蔚来世界模型NWM(NIO World Model)。NWM优化了端到端架构,能全量理解数据,重建物理世界,具备想象力、长时序推演和决策能力。
但受制于蔚来自动驾驶部门组织调整、多种路线的探索,后又因工信部新规,目前,世界模型仍未开启大规模上车。
智驾技术迭代速度日新月异。从高精地图、无图到去年形成“端到端”的共识,再到今年,各家车企已经试图超越端到端范式,寻找更优的技术路径。世界基座模型、VLA、世界模型......蔚小理在智能驾驶上的技术路径不同,但终局或许相通。
根据权威研究机构 EPOCH AI 的调查,语言大模型的性能正逐渐随参数规模加大出现边际效益递减,2028 年将训练完互联网的所有可用文本数量。因此,OpenAI、谷歌与 meta 等科技巨头正在迈向 AGI 的下一阶段:多模态大模型。
未来,所有正在钻研智能驾驶的车企,将与全世界的其他AI企业一起,共同参与这场浩大的AI大模型竞赛。
小鹏:为了“大力出奇迹”,我做了三件事
在大语言模型领域,规模法则(Scaling Law)已被充分验证,即“规模越大、能力越大”,ChatGPT的成功就是基于“大力出奇迹”的暴力美学。
但过往的自动驾驶并未真正用到“大模型”。李力耘介绍,过去一年,小鹏智驾研发团队先后开发了2B(Billion)、7B尺寸的基座模型。放眼整个汽车行业,“基于车端芯片,模型尺寸一般在1亿~5亿之间,主流的 VLA 的参数规模也不过20亿左右”,李力耘说。
这是因为自动驾驶基座模型“复杂得多”,它的训练数据远不止单模态的文本数据,还包括摄像头信息、导航信息等关于物理世界的多模态数据。本质上,它要求模型对物理世界形成认知和理解。
李力耘称,小鹏目前已经着手推进72B超大规模参数世界基座模型的研发,后者是主流车端模型的35倍以上。
在开发超大模型之前,李力耘团队做的第一件事是:验证参数规模逐步扩大到百亿级别之后,规模法则的可行性。
上图左侧图标题为《Long ADE(Long-term Average Displacement Error,长期平均偏差) vs 模型规模》,纵轴为 Long ADE,横轴为模型规模。
观察可发现,假如用于训练的视频量不变,无论是白线(4M Clips,400万段视频)还是金线(14M Clips,1400万段视频),都在随着模型参数的上升而逐渐走低,即误差持续下降;如果将两条曲线相对比,金线的下降幅度明显比白线更大,说明用于训练的视频量越大,误差下降幅度越大。
右侧图标题为《 Long ADE vs 训练数据集大小》,很明显,训练的数据量越大,误差下降得越快。
可行性验证完毕后,为了训练这一超大模型,小鹏做的第一件事是搭建了一个“云端模型工厂”。
“云端模型工厂”的“原料”是数据。小鹏发现,大量多模态数据的汇集、更高的参数,使云端世界基座模型拥有了链式推理能力(CoT)。
即世界基座模型能在充分理解物理世界的基础上,像人类一样进行复杂的常识推理,并将推理结果转化为行动:调整方向盘、刹车等,实现和物理世界的交互,最终实现多模态大模型控制车辆的效果。
为了补全长尾场景,小鹏的方法是研发强化学习技术。原本的“规则时代遗产”,如今成为了小鹏的第二个杀手锏。
解决极端场景能力,比如撞车、事故等,是自动驾驶里非常重要的一部分。由于极端场景数据很少,传统的解决方式是让车端模型不断通过模仿学习来学,但由于没有办法得到人驾时成功避免事故的轨迹数据,车端模型很难习得这个能力。
另外,由于车端模型参数小,本身能力上限较低,“就像一个比较差的学生,再怎么去做一些难题也不太可能提高分数。让一个小模型做强化学习,不见得有能力去解决这些极端场景。”李力耘告诉《21汽车·一见Auto》。
但如果基座模型足够强大,就能被强化学习不断激发出能力上限,提高模型的泛化性和对未知场景的理解和推理能力,找到最可能降低风险的路径。“这是大家最新收敛的一个共识。”小鹏世界基座模型负责人的刘博士说。
强化学习具体该怎么做?小鹏分享了他们开发强化学习系统的三个方面:
一、设立奖励函数(Reward Function)。小鹏用最简单的规则来作为奖励函数,例如合规、舒适、安全等等。这些小鹏过往在智驾研发的规则时代中积累的大量经验,成为了今天基座模型时代从0到1的基础。
二、设立奖励模型(Reward Model)。奖励模型会提供更连续、泛化、更多维的奖励信息给到强化学习,简单来说就是告诉智驾“什么是好的”,并以此让智驾想办法达成这些表现。这部分小鹏更重视智驾接管和市场的反馈数据,让模型按照市场建议来改进“开车习惯”,提高模型的泛化能力。
三、设立世界模型(World Model)。小鹏构建的世界模型是一种实时建模和反馈系统,能够基于动作信号模拟出真实环境状态,渲染场景,并生成场景内其他智能体的响应,从而构建一个闭环的反馈网络,帮助基座模型不断进化,突破过去“模仿学习”的天花板。
从“原料”到“上车”,靠的是“云端蒸馏”,这是小鹏将超大模型下放到车端的最后一招。“云端蒸馏”是模型压缩的一种方法,指利用云计算资源,让一个大模型(教师模型)教一个小模型(学生模型),这样小模型能模仿大模型的性能,但体积更小,计算量更少。这一技术早已在今年爆火的DeepSeek论文中得到验证。
刘博士将训练基座模型,比作训练出了一个“青年教师”,通过强化学习把他训练成一个“资深教授”,最后通过蒸馏,让老教授的能力最大可能地保留在车端,让车端小模型吸收海量数据的精髓。
云端基座大模型可以突破车端芯片算力的“一亩三分地”,大幅提升“AI汽车智能上限”。而云端蒸馏的好处在于,能够在云端模型基础上高效生产“小身材、大智商”的端侧模型,甚至能为不同需求的汽车定制不同的“大脑”,让“千人千面”的模型研发成为可能。
不久前,小鹏汽车已经实现在后装算力的车端成功实现基模控车。虽然这只是早期测试,但基座模型已经展现出令人惊喜的驾车技能。
为了训练如此庞大的模型和数据、提升算力速度,小鹏汽车从2024年开始搭建AI基础设施,当前已建立起万卡规模的智能算力集群,算力储备达到10EFLOPS,利用率常年高达90%以上,高峰时期的运行效率甚至达到98%。
为了解决数据访问的效率问题,小鹏汽车又自主开发了底层的数据基础设施,使数据上传规模提升 22 倍、训练中的数据带宽提升 15 倍。目前,小鹏汽车用于训练的视频数据量已达到 2000 万 clips,将在今年增加到 2 亿 clips,整个“云端模型工厂”的迭代周期达到平均 5 天一次。
相较理想和蔚来,目前小鹏在AI领域的布局更全面,包括AI汽车、AI机器人、飞行汽车,这也是小鹏更需要世界基座模型的原因。
何小鹏在发布会上宣布,目前小鹏汇天陆地航母在国内收到了将近4000台订单,将于2026年量产;小鹏人形机器人IRON已经小规模进入到了工厂实训,目标在2026年进入工业化量产;最后,小鹏将在 2025 年底,在中国内地率先实现 L3 级智能驾驶落地。
理想:从二维到三维,从VLM到VLA
在技术分享会上,小鹏专门提到自己的模型参数 35 倍于主流 VLA 模型,意在与理想今年3月部署的 MindVLA 模型一争。
在智驾领域,理想是一匹耀眼的黑马。去年端到端成为技术浪潮,逼迫车企从分模块的规则思维转换到端到端架构,那些原本在智驾上领先的车企,要承受不小的沉没成本;反倒是一些落后者,有了弯道超车的机会。
理想就是一个典型例子,去年不仅首先实现“车位到车位”的全量推送,其独特的“端到端(快系统)+VLM(慢系统)”还被不少车企所模仿。今年3月,理想又发布新智驾基座模型——MindVLA,大有引领智驾潮流之势。
VLM像一个教练通过语言方式指导驾驶员开车,无法直接干预。而VLA则是“教练直接开车”,因此VLA模型在推理方面的能力要远高于VLM+端到端组成的双系统。
虽然小鹏和理想的智驾技术在大方向上不同,但需要面对很多共同问题,具体怎么解决,他们则采取了不同的技术路线:
其一,理想和小鹏都意识到,过往训练端到端大模型所使用的数据都是海量二维的互联网图文,模型在3D空间理解上是不足的。为此,他们都需要对基座模型进行重新训练。
·小鹏给模型灌入了海量摄像头信息、导航信息等关于物理世界的多模态数据,还用上了“云端模型工厂”;
·理想则选择了另一种技术——3D高斯泼溅技术,即用很多个“高斯点”来拼出一个 3D 物体,每个点都像一个小水滴,含有自己的位置、颜色和大小等信息。将这些高斯点组合在一起,就能形成一个立体的图像,使自动驾驶系统能够高效感知和理解周围物理环境。
其二,他们都意识到自动驾驶芯片(如 Orin-X 和Thor-U) 的内存带宽和算力是有限的,他们必须找到提升模型参数量和能力,同时还能让其实现高效推理的“钥匙”。
·小鹏把Deep seek 的“云端蒸馏”技术用到了车上,即先训练一个超大基座模型,再蒸馏出一个已吸收海量数据精髓的小模型,最后部署在车上,在有限的车端芯片上最大化发挥模型能力。
·理想则着重实现模型的稀疏化,采用了 MoE (Mixture of Experts)模型架构,并引入稀疏注意力(Sparse Attention)。
MOE架构由专家网络、门控网络和组合器组成。当模型参数超过千亿级别时,传统方法会让所有神经元参与每个计算,太浪费资源;但MoE架构会让门控网络承担总调度员的角色,根据所要处理的任务激活不同的专家,最后再由组合器整合结果,实现“用20%的计算资源完成80%的任务精度”。
稀疏注意力则是让AI只计算关键区域的注意力权重,好比人在开车时紧盯前方车辆,只用余光扫视后视镜,而非事无巨细地观察所有景物。
用这两种方式,理想能保证模型在规模增长的同时,维持较高的端侧推理效率,使自动驾驶在资源受限的车端环境中依然能够实现高效推理。
其三,小鹏和理想都必须解决“自动驾驶大模型如何应对极端场景”这个绕不开的问题。
·小鹏选择训练超大基座模型,然后用强化学习的奖励模型不断激发模型的潜能,提高模型的泛化能力。
·理想团队则选择构建基于人类偏好的数据集,引入RLHF(基于人类反馈的强化学习)进行模型微调,使MindVLA对齐人类驾驶行为,提升其安全底线。
李想在接受AI Talk时强调,理想是一家人工智能企业,讲“理想汽车”是为了方便跟外界沟通和宣传,但从来没把“汽车”加到logo上。理想同时在做理想同学和智能驾驶两款人工智能产品,而在做的过程中,他们早就发现这两个领域有一天一定会连在一起——那就是基座模型变成 VLA 的时刻。
如今,李想的宏图已在一步步实现。MindVLA 计划在今年7月和首款纯电SUV车型理想i8同时发布,在2026年搭载于量产车型。
蔚来:预埋硬件、注重安全
蔚来自从去年7月公布 NWM 智驾方案后,在技术架构上就没有新的消息。
去年蔚来科技创新日上,任少卿说NWM就像“人的大脑”。在引入NWM后的端到端架构模型有三个优点:
·全量理解信息,空间认知能力更强;
·能够预测接下来的情景,在0.1秒内推演出216种可能发生的轨迹,然后寻找最佳决策;
·仿真世界,NSim(NIO Simulation)可以将NWM推演的每一种轨迹与对应的仿真结果做对比,给到更多数据给到 NWM 训练,让输出的智驾轨迹和体验更安全更合理,更高效。
不过,目前小鹏和理想都在自己的智驾方案中使用世界模型进行仿真测试了,蔚来的智驾方案是不是也应该与时俱进了?
另外,NWM作为多元自回归生成模型,需要千万级 Clips 以上的真实数据训练。如何满足这么庞大的数据需求?除了刚才提到的生成式仿真测试之外,蔚来还祭出了“群体智能”这一法宝:
蔚来目前有20多万台搭载 NT2.0 平台的车型,每台车配备四颗 Orin-X 中,有一颗专门留给群体智能训练。这颗 Orin-X能够筛选掉 99%无用数据并经过复杂自动化流程处理后回传云端,使车辆不光在智驾状态下,在非智驾状态下也能获取到有效数据:
20多万台车即是20多万个“移动数据节点”,每月能够提供 500 万+接管数据,共分析 4785 万接管案例,捕捉的高价值 Clips 超过 1000 万。
更为重要的是,蔚来依靠群体智能,显著提升了找到极端场景的能力,“现在我们已经有超过一千万公里的高价值数据,保证我们在领航的状态,在主动安全的状态做到更加安全”,任少卿表示。
小米事故后,监管部门给狂奔的智驾竞赛踩了一脚急刹车,那些急着秀参数、拼速度的玩家,需要补交一波“安全学费”。
虽然在模型架构和量产推送上比小鹏、理想慢,但一位蔚来智驾智驾人士告诉《21汽车·一见Auto》,李斌每周都会查看用户所上报的重要事故,他对智能驾驶团队的期待很明确,“解放精力、减少事故”。
走得慢的蔚来,一直很重视安全:去年7月为用户上线端到端架构的AEB功能,覆盖场景提高 6.7 倍,推送后平均每月帮助用户避免 7 万次事故;今年1月,蔚来通过 Banyan 3.1.0 系统推送AES功能,是全球首个将端到端技术应用于主动安全的车企。
小米的智驾事故是一次提醒,倒逼行业从比拼“谁跑得快”变成“谁跑得稳”,目前走得慢却稳的蔚来,未必不会在之后的智驾竞赛中重新超车。
蔚小理在AI大模型上的角逐,反映了他们各自做事的底色——“技术控”的小鹏最具野心,布局超大模型、一年敢投入45亿元;花钱谨慎的理想,仍聚焦于车端的实用体验;“车圈海底捞”蔚来,提前为用户预埋了安全硬件。
电动化时代,蔚小理最大的对手是特斯拉。但面对AI革命,更多科技巨头齐上阵,他们需要跑得最快些。
0 条