Copyright 2017-2025 北方报 版权所有 京ICP备16071829-1号
吵架、斗嘴、互怼是国内车圈的常态,尤其在智能辅助驾驶领域,大家更是习惯了自我吹捧、拉高踩低。
最近,理想和小鹏又双叒叕地在VLA技术路线上展开了一次新的交锋。
借着这次机会,给大家缕一下理想和小鹏汽车过去几年中的智驾营销战,再谈一谈对这次交锋的观点。
自动驾驶向来是一个浮夸风吹得很猛烈的行业,这股歪风的始作俑者恐怕要追究到马斯克的头上,多少年了,马斯克一次又一次地将FSD吹上了天。
比起大洋彼岸的特斯拉,国内车企在自动驾驶上的宣传可谓有过之而无不及。
远的不提了,我们可以从2023年的开城大战说起。
由于在智能辅助驾驶方面自研较晚,理想汽车在自动驾驶方面的进度实际上是一度落后于华为、小鹏和蔚来的。
但在相关宣传方面,理想汽车一向是输人不输阵,口头上从来没有输过。
2023年,国内厂商刚刚开启向无图NOA的转型,理想汽车就早早地表示自己是国内第一家率先实现无图城区NOA的车企,看得小鹏和华为一脸懵逼。
小鹏汽车刚刚宣布要在2023年开城45座城市的城区NOA,理想汽车就放大炮宣布要在2023年开通100座城市的城区NOA。
或许正是从那个时间开始,这两家就结下了梁子。
到了2024年,双方又针对端到端展开了一波营销战。
双方都在声称,自己才是第一个全球唯二率先量产落地端到端大模型的本土车企。
“世界唯二/全球唯二”是国内车圈常见的技术传播术语,唯二里的两家,一家当然是自己,另一家多数指的是特斯拉。
以吹特斯拉为名,行捧自己之实,本土车企们深谙这种营销口号能够在用户的心中引起怎样的效果。
理想汽车在24年7月6号宣布推送端到端无图NOA方案,到了7月底,何小鹏直接宣布“小鹏是全球唯二实现端到端大模型量产落地的车企”。
后来,双方又针对实车数量能不能决定端到端方案的性能,以及谁率先部署一段式端到端展开了一波交锋,让喜欢看热闹也喜欢看门道的我很是服气。
满满的情绪,像极了小两口耍嘴皮!
在中国自动驾驶产业发展的编年史里,应该有小鹏和理想的一席之地。
2024年,这两家新势力车企率先落地一段式端到端方案,进入2025年,他们又争先恐后地开始训练和部署基于生成式AI的VLA智驾大模型。
不过,正如因架构设计、训练方法、数据配比等各个方面的原因,导致不同厂家的一段式端到端方案存在千差万别一样,小鹏和理想汽车的VLA大模型也存在一定的差别。
根据这段时间小鹏高管及KOC和理想KOC之间的争论来看,在实车部署时有有没有走端云结合路线是这两家方案的首要差别。
小鹏汽车自动驾驶产品高级总监表示,所有跟控车相关的VLA都必须放到车端。
那句“通过云端交互的VLA可以演示,但不建议拿来真物理世界真实使用”,简直就是对理想汽车贴脸开大了,因为,理想VLA司机Agent走的就是端云一体路线。
“端云结合”体现在对复杂任务语音指令的处理上,如图所示,简单语音指令直接送入车端4B VLA司机大模型。
但是需要更大的模型才能处理的复杂任务语音指令,要先经过云端的32B VL基座模型做长任务拆解,然后再以文本指令的形式将拆解出来的多个短指令送入车端的4B VLA司机大模型。
先来看小鹏高管的逻辑:“因为网络延迟和网络丢失,导致用户语音控车无法及时响应,别说是1到2秒的延迟,超过300毫秒的延迟就会导致控车的风险。
”安全大于天,小鹏将VLA完全放在车端的做法,似乎能够杜绝网络延迟导致的安全风险。
但是,对于那些即便存在1-2秒延迟也无伤大雅的复杂任务语音指令,只有几B参数的车端VLA模型就爱莫能助了。
这里的核心逻辑在于,大模型的能力和其参数规模存在正相关关系。几B参数的模型,你真能信得过它的语言理解能力?
英雄所见略同,小鹏汽车将训练和部署VLA模型的工厂划分成了四个车间,理想汽车也将VLA模型的训练和推理划分成了四个阶段。
小鹏汽车云端模型工厂第一车间负责基座模型的预训练和后训练,第二车间负责模型蒸馏,第三车间对蒸馏出的模型继续做预训练,第四车间将 XVLA部署到车端。
由此可见,小鹏的做法是,先在基座模型的后训练阶段通过世界模型进行强化学习,然后再进行模型蒸馏。
理想汽车先进行视觉语言基座模型的预训练,蒸馏出3.6B的小模型之后,再通过驾驶场景数据进行后训练和强化学习。
最后,在第四阶段将最终的司机Agent进行端云部署。由此可见,理想汽车的做法是先对基座模型进行蒸馏,再对蒸馏后的模型做强化学习。
很显然,小鹏和理想在VLA训练上的区别在于强化学习的时机和对象不同。
小鹏对云端基座模型做强化学习,先做强化学习再蒸馏,理想则是先蒸馏基座模型再做强化学习,对车端蒸馏模型做强化学习。
哪个路线有更高的天花板目前很难判断,我只能讲一下各自的优缺点。
小鹏路线的优点在于吻合智能涌现的规律,模型的参数规模越大,强化学习的效果越好,更大规模的神经网络能够全面吸纳驾驶数据,不遗漏重点信息细节,大幅提高云端大模型上限。
缺点在于,即便云端大模型智能涌现,经过蒸馏之后,模型的能力也会大幅度缩水。
而且,在遇到长尾问题后需要重新训练云端基座模型,更大参数的模型训练需要消耗更多算力资源和训练时间。