理想和小鹏的VLA，都有美好的明天

吵架、斗嘴、互怼是国内车圈的常态，尤其在智能辅助驾驶领域，大家更是习惯了自我吹捧、拉高踩低。

最近，理想和小鹏又双叒叕地在VLA技术路线上展开了一次新的交锋。

借着这次机会，给大家缕一下理想和小鹏汽车过去几年中的智驾营销战，再谈一谈对这次交锋的观点。

自动驾驶向来是一个浮夸风吹得很猛烈的行业，这股歪风的始作俑者恐怕要追究到马斯克的头上，多少年了，马斯克一次又一次地将FSD吹上了天。

比起大洋彼岸的特斯拉，国内车企在自动驾驶上的宣传可谓有过之而无不及。

远的不提了，我们可以从2023年的开城大战说起。

由于在智能辅助驾驶方面自研较晚，理想汽车在自动驾驶方面的进度实际上是一度落后于华为、小鹏和蔚来的。

但在相关宣传方面，理想汽车一向是输人不输阵，口头上从来没有输过。

2023年，国内厂商刚刚开启向无图NOA的转型，理想汽车就早早地表示自己是国内第一家率先实现无图城区NOA的车企，看得小鹏和华为一脸懵逼。

小鹏汽车刚刚宣布要在2023年开城45座城市的城区NOA，理想汽车就放大炮宣布要在2023年开通100座城市的城区NOA。

或许正是从那个时间开始，这两家就结下了梁子。

到了2024年，双方又针对端到端展开了一波营销战。

双方都在声称，自己才是第一个全球唯二率先量产落地端到端大模型的本土车企。

“世界唯二/全球唯二”是国内车圈常见的技术传播术语，唯二里的两家，一家当然是自己，另一家多数指的是特斯拉。

以吹特斯拉为名，行捧自己之实，本土车企们深谙这种营销口号能够在用户的心中引起怎样的效果。

理想汽车在24年7月6号宣布推送端到端无图NOA方案，到了7月底，何小鹏直接宣布“小鹏是全球唯二实现端到端大模型量产落地的车企”。

后来，双方又针对实车数量能不能决定端到端方案的性能，以及谁率先部署一段式端到端展开了一波交锋，让喜欢看热闹也喜欢看门道的我很是服气。

满满的情绪，像极了小两口耍嘴皮！

在中国自动驾驶产业发展的编年史里，应该有小鹏和理想的一席之地。

2024年，这两家新势力车企率先落地一段式端到端方案，进入2025年，他们又争先恐后地开始训练和部署基于生成式AI的VLA智驾大模型。

不过，正如因架构设计、训练方法、数据配比等各个方面的原因，导致不同厂家的一段式端到端方案存在千差万别一样，小鹏和理想汽车的VLA大模型也存在一定的差别。

根据这段时间小鹏高管及KOC和理想KOC之间的争论来看，在实车部署时有有没有走端云结合路线是这两家方案的首要差别。

小鹏汽车自动驾驶产品高级总监表示，所有跟控车相关的VLA都必须放到车端。

那句“通过云端交互的VLA可以演示，但不建议拿来真物理世界真实使用”，简直就是对理想汽车贴脸开大了，因为，理想VLA司机Agent走的就是端云一体路线。

“端云结合”体现在对复杂任务语音指令的处理上，如图所示，简单语音指令直接送入车端4B VLA司机大模型。

但是需要更大的模型才能处理的复杂任务语音指令，要先经过云端的32B VL基座模型做长任务拆解，然后再以文本指令的形式将拆解出来的多个短指令送入车端的4B VLA司机大模型。

先来看小鹏高管的逻辑：“因为网络延迟和网络丢失，导致用户语音控车无法及时响应，别说是1到2秒的延迟，超过300毫秒的延迟就会导致控车的风险。

”安全大于天，小鹏将VLA完全放在车端的做法，似乎能够杜绝网络延迟导致的安全风险。

但是，对于那些即便存在1-2秒延迟也无伤大雅的复杂任务语音指令，只有几B参数的车端VLA模型就爱莫能助了。

这里的核心逻辑在于，大模型的能力和其参数规模存在正相关关系。几B参数的模型，你真能信得过它的语言理解能力？

英雄所见略同，小鹏汽车将训练和部署VLA模型的工厂划分成了四个车间，理想汽车也将VLA模型的训练和推理划分成了四个阶段。

小鹏汽车云端模型工厂第一车间负责基座模型的预训练和后训练，第二车间负责模型蒸馏，第三车间对蒸馏出的模型继续做预训练，第四车间将 XVLA部署到车端。

由此可见，小鹏的做法是，先在基座模型的后训练阶段通过世界模型进行强化学习，然后再进行模型蒸馏。

理想汽车先进行视觉语言基座模型的预训练，蒸馏出3.6B的小模型之后，再通过驾驶场景数据进行后训练和强化学习。

最后，在第四阶段将最终的司机Agent进行端云部署。由此可见，理想汽车的做法是先对基座模型进行蒸馏，再对蒸馏后的模型做强化学习。

很显然，小鹏和理想在VLA训练上的区别在于强化学习的时机和对象不同。

小鹏对云端基座模型做强化学习，先做强化学习再蒸馏，理想则是先蒸馏基座模型再做强化学习，对车端蒸馏模型做强化学习。

哪个路线有更高的天花板目前很难判断，我只能讲一下各自的优缺点。

小鹏路线的优点在于吻合智能涌现的规律，模型的参数规模越大，强化学习的效果越好，更大规模的神经网络能够全面吸纳驾驶数据，不遗漏重点信息细节，大幅提高云端大模型上限。

缺点在于，即便云端大模型智能涌现，经过蒸馏之后，模型的能力也会大幅度缩水。

而且，在遇到长尾问题后需要重新训练云端基座模型，更大参数的模型训练需要消耗更多算力资源和训练时间。

原创写作更多>>