投放L3级自动驾驶稳即是快,吉利为什么要押注“世界模型”?

过去一年,自动驾驶领域的技术讨论高度集中在一个方向上——VLA(Vision-Language-Action)。

这一范式的核心思路是,用一个统一的大模型,将视觉感知、语言理解与动作输出端到端连接,尽可能缩短从“看见”到“执行”的路径,减少人为规则与中间模块的干预。

与之相比,世界模型并不追求路径最短,而强调对环境的结构化理解。系统不仅要知道“此刻该怎么做”,还要在内部构建一个可推演的世界,用来判断不同决策可能带来的后果。

吉利在2026年CES国际消费电子展上,提出的 WAM(World Action Model),也就是世界行为模型,正是建立在这一理念之上。

它并不是对 VLA 的简单替代,而是一种更偏向认知层的架构设计:在行动之前,先形成对世界的理解;在执行之前,先完成多路径推演。

理解这一差异,是判断吉利全域 AI 2.0 价值的前提。


吉利为何选择世界模型路径

在自动驾驶的技术演进中,特斯拉的端到端技术一直被视为行业的标杆。特斯拉目前的FSD架构已经从早期的模块化演进到了“One Model”一段式端到端阶段,其本质是将原始视觉数据直接映射到控制指令。

再看VLA 的优势在于效率。通过压缩链路,它最大限度减少了系统复杂度,让模型在海量数据中自行学习驾驶策略。这种方式非常适合算力与数据资源极其充足的公司,也更容易在特定场景下快速取得效果。

但问题在于,当系统开始承担更高等级的责任时,仅仅“做对”并不够。自动驾驶需要的不只是正确动作,还包括对风险的判断、对边界的认知,以及在复杂情况下的稳定行为一致性。

这正是吉利选择世界模型的背景。

吉利推出的WAM则选择了另一条更偏向“物理直觉”的道路。虽然吉利的体系中也包含MLLM(多模态大模型)进行语义理解,但WAM的核心在于它是一个“物理仿真预演器”。相比于VLA侧重于“语义推理”和“因果解释”,WAM决策不再是感知到动作的直接映射,更强调“时空预测”和“物理闭环”。它在决策前,会在大脑中先模拟出未来数秒内环境可能的演变,并预演自己的动作会产生什么物理后果。

这种差异决定了两者不同的优势:VLA在应对需要“社会常识”和“语义交互”的场景(如理解交警的手势或复杂的导航语音指令)时更具灵动感;而吉利的WAM在处理极端复杂的物理博弈(如高速紧急避障、极限调头)时,由于具备更强的空间带宽和物理预判能力,其动作的精确度和安全性边界往往更高。吉利的全域AI 2.0实际上是将“理解世界”的语言模型与“模拟世界”的行为模型进行了跨域融合。

这一过程并不追求“最快反应”,而是强调可推理、可验证、可修正


全域“统一思想” WAM重新划分端到端角色

吉利试图把WAM作为整车层面的统一认知内核。

在全域 AI 2.0 架构下,驾驶、座舱、底盘与安全系统,不再是各自独立进化的功能模块,而是共享同一套对世界的理解方式。这意味着,车辆对距离、速度、危险程度以及行为预期的判断,不应在不同系统中产生冲突。

这种“全域一致”的思路,更多是从整车工程出发,而非单点性能竞争。它牺牲了一部分短期激进性,却换来了系统级协同的可能性。

从这个角度看,WAM 并不是比 VLA 更前卫的路线,反而更接近一种工程理性下的长期选择。

需要指出的是,吉利并没有放弃端到端能力。在WAM体系中,端到端模型仍然承担着感知与执行层的重要职责,只是不再被视为“全部智能的唯一来源”。

这反映出一种相对克制的判断:在相当长一段时间内,自动驾驶仍需要结构化约束,需要明确的价值排序,也需要能够被人类理解和监管的决策逻辑。

这一判断,也直接影响了吉利对 L3 与 L4 的推进节奏。

2026年投放L3、L4的底气与挑战

吉利宣布在2026年内推送高速L3和低速L4功能,并实现Robotaxi运营。这背后的技术支撑来自于“含模量”极高的千里浩瀚G-ASD系统。该系统依托于1400TOPS算力的双Thor芯片硬件平台,并标配5颗激光雷达,在感知冗余上达到了目前的行业顶级水平。

这种“重硬件、重预演”的策略,使得吉利在迈向高阶自动驾驶时具备极强的确定性。

对于L3级自动驾驶而言,最核心的难题不在于“能开”,而在于“接管的安全闭环”。WAM模型通过在后台持续进行“平行预演”,能够更早地预判到系统无法处理的极端物理风险,从而为人类驾驶员留出更充裕、更安全的接管窗口。

而在低速L4场景下,依靠高精度的物理仿真,吉利能够更好地解决窄路通行、复杂泊车等高频长尾问题,这为其Robotaxi的商业化落地提供了坚实的工程基础。

客观看,吉利的优势在于“全域融合”与“数据深度”。吉利不仅拥有海量的实车行驶数据,还拥有行业领先的百万量级事故安全数据库。这让AI不仅学习如何正确驾驶,更深刻理解各种事故发生的物理诱因。

此外,吉利将智驾与底盘、动力域打通,使得AI决策能够直接作用于空气悬架的阻尼、电机的扭矩分配,这种“软硬一体”的深度耦合是纯算法公司难以企及的护城河。

但挑战依然严峻。首先, WAM带来的系统复杂度,会显著提高验证和测试成本;虽然WAM擅长物理推演,但在面对中国复杂的城市街道博弈(如外卖车辆非理性穿行)时,AI是否能具备足够的“人情世故”而不至于因过度谨慎导致通行效率低下,仍有待市场验证。而作为多品牌集团,如何在不同车型、不同价位间平衡体验一致性与成本,也是一道长期难题。

其次是“端到端AI”的固有延时问题。正如业内公认的,神经网络的推理延时若不能压制在个位数毫秒级,在高速场景下将面临安全隐患。吉利虽然拥有强悍的算力平台,但如何在高参数模型下实现极致的实时响应,仍需底层算法的持续压榨。


最后,L3 / L4 并非单纯的技术问题,还涉及法规、责任界定和用户认知,这些都决定了落地节奏不可能只由技术成熟度决定。


写在最后

吉利并没有选择当前行业中最激进、也最容易制造“技术叙事高潮”的路径。
相反,它选择了相信世界模型与判断力的道路。它更像是在为一个更长周期构建基础设施。

世界模型未必会在短期内赢下所有指标对比,但在 L3 向 L4 这个风险最高、系统要求最严苛的阶段,稳定性、可解释性与工程可控性,可能比单点性能更重要。

通过WAM世界行为模型,吉利试图将车从一个被动执行的工具转变为一个具备物理预见力的智能生命体。 吉利发布全域AI 2.0,也是基于自身的工程优势构建独特的技术话语权的开始。


继续阅读

相关推荐

评论(0)

还没有评论哦,快来抢沙发
最新评论
    查看全部0条评论
    加载中