科技

ICCV 2025:自动驾驶迎来变革——VLA 世界模型驱动的训练闭环,加速 L4 时代到来

0
登录或者登记去做吧。
阅读量:49

在智能汽车与自动驾驶领域的激烈角逐中,核心领先企业正逐步形成统一的技术路径。特别是在 ICCV 2025 会议上,这一趋势已然显露无遗:端到端方法虽已主导市场,但数据瓶颈日益凸显,强化学习与云端生成式世界模型正成为新的技术基石。特斯拉与理想汽车等巨头,在这场 AI 顶会上同步分享了前沿实践,彰显出行业共识的形成。

特斯拉自动驾驶副总裁 Ashok Elluswamy 强调,他们正利用世界模拟器对车载模型进行评估。与此同时,理想汽车 VLA 模型负责人詹锟在具身智能专题研讨会上,围绕“世界模型:从数据闭环向训练闭环的演进”主题,深入剖析了理想的创新思路。

理想的核心观点是:单纯的数据闭环已难以支撑 L4 级自动驾驶的突破,VLA 模型需借助训练闭环实现跃升。詹锟在会议后进一步交流中,详述了这一闭环的构建逻辑与实际应用。

自动驾驶进入新阶段:数据闭环的局限与训练闭环的兴起

理想在 ICCV 开场白中指出,自动驾驶技术正如大模型一般,步入“下半场”。回顾上半场,端到端架构整合了整个技术栈,充分发挥了 Scaling Law 的红利,推动 AI 性能迅猛提升。

然而,理想团队很快意识到,基于模仿学习的 AI 仅能捕捉数据中的平均表现,难以逾越人类驾驶极限,这要求技术范式进行根本性调整。与此同时,大规模计算资源和高精度仿真技术的迅猛发展,为这一转变提供了坚实基础。于是,理想果断从数据闭环转向训练闭环。

数据闭环是行业标配:通过采集、训练、评估与部署的循环迭代。但它难以触及罕见边缘场景,导致覆盖不全。

训练闭环则更进一步:模型通过生成虚拟环境并获取反馈,实现持续优化,直至达成预设目标。具体而言,理想在云端搭建了世界模型训练平台,用于培育融合先验知识与驾驶经验的车载 VLA 模型。这是业内首创的完整架构,将世界模型无缝融入强化学习闭环,并应用于量产自动驾驶系统。

需澄清的是,理想的世界模型并非单一组件,而是一个综合体系,涵盖环境搭建、智能体设计、反馈机制及多路径场景演化。该系统是本次 ICCV 分享的焦点,核心功能分为三大模块:

  • 区域规模的仿真与评估
  • 创新数据合成
  • 强化学习驱动的世界引擎

这些模块协同发力,推动训练闭环落地。以下逐层展开。

首先,区域级仿真与评估是车载 VLA 模型实现长序列真实测试的基础。理想采用“重建 + 生成”的混合策略,以平衡二者优势。

重建路径能精确复现目标对象,确保高稳定性和忠实度,但输出多为静态。生成路径则擅长动态变幻,可产出全新视角的图像,提升泛化能力,却易失控。为此,理想融合两者,并与合作伙伴联合产出多项顶会成果。

例如,早前参与的 Street Gaussians 算法——首个针对自动驾驶的 3D 高斯街景重建方案,被 ECCV 2024 录用。

此外,本届 ICCV 收录的《Hierarchy UGP: Hierarchy Unified Gaussian Primitive for Large-Scale Dynamic Scene Reconstruction》(分层统一高斯图元用于大规模动态场景重建),由浙江大学、理想汽车及电子科技大学等联合完成。该模型在自建数据集及 Waymo 公开数据上均创 SOTA 纪录。

其结构分三层:根层作为入口,子场景层细化空间划分并提取元素,图元层则运用 4D 统一高斯图元(Unified Gaussian Primitive)建模刚性与非刚性运动,实现高效重建。

上述聚焦重建的成果之外,在混合方向,理想与 GigaAI 合作推出的 ReconDreamer 方案——通过生成补充缺失视角的重建方法,被 CVPR 2025 接纳。

尽管重建已获显著进展,但詹锟认为,生成技术能低成本批量制造边缘场景,且多样性更强。因此,未来仿真中生成的比重将持续上升,重建占比相应下降,这一演进势不可挡。

世界模型的第二大应用是数据合成能力:通过构建均衡、多样的场景库,实现评估的全面性,并提升模型效能。

理想将合成数据分为三层:场景编辑(优化现有素材)、迁移(跨域适应)及全场景生成(原创极端案例)。这一机制显著拓宽数据边界——传统采集数据多局限于晴朗天气、常规路况与标准车辆(上图上半部),而融合合成后(下图下半部),极端与复杂场景激增,模型鲁棒性随之跃升。

强化学习世界引擎是理想视作最大难关的第三层:它赋予模型在虚拟环境中自主探索与即时反馈的能力,五大要素决定成败:

  • 世界模型、3D 资产及仿真智能体:确保环境真实度
  • 奖励模型:直接主导强化学习效果
  • 性能优化:关乎大规模部署的可行性

其中,仿真智能体最为棘手:精确模拟他车与自车的交互,甚至他车间的动态,比单车 L4 更具挑战。詹锟分享两种应对策略:一是自博弈(Self-play),二是理想独创的约束范式——通过目标与奖励函数规范多智能体行为,包括个体轨迹与交互模式,并动态调整权重以丰富样本分布。

这些技术积累正驱动理想辅助驾驶能力迅猛迭代,通过分步升级逐步逼近 L4。詹锟现场演示了园区内道路的辅助驾驶片段,展现初步成效。

理想的盈利引擎:支撑创新的商业化闭环

率先转向训练闭环,得益于理想独有的另一闭环——商业化闭环。作为新势力中首家盈利企业,理想将巨额资金注入研发:2023-2024 年年均超百亿,2025 上半年达 53 亿,全年预计破百亿。

投入不止于上层算法,还延伸至底层整车 OS:理想星环 OS 于 2024 年首发,实现软硬件解耦,芯片适配仅需 4 周。

上车后,星环 OS 贯通车辆多模块,提升整体协同。以 AEB(自动紧急制动)为例,传统链路涉及传感器感知、中央决策与执行刹车,多域控制器间延迟累积。星环 OS 的跨域设计加速响应,据测,在 120 km/h 时速下,刹停距离缩短 7 米——极端情境下,这或成生死一线。

这项成果不止惠及 130 万车主,还辐射行业:2025 年 3 月开源,源码渐次释出。自研投入超 10 亿,上车后年省 BOM 数十亿。开源后,多家车企免去数亿研发开支,迅获 OS 能力。

开源生态迅兴:2025 年 9 月,长城汽车、英飞凌、芯驰科技、汇川联合动力、欣旺达及德赛西威等 16 家伙伴,与理想共签《星环 OS 社区章程》。

理想开源不止获业界青睐,还获学术肯定。本届 ICCV 录用其 3DRealCar 数据集,Apache 2.0 协议全开源。

该集含 2500 辆真实汽车,每辆超 200 张高分辨 RGB-D 图像,是业内首大规模高质量 3D 车辆库,覆盖 360° 视角与多光照。

每车附 RGB-D、点云、解析图及详尽标注,适用于 2D/3D 任务与场景重建。3D 车辆数据稀缺一直是痛点,开源后迅速被头部企业采纳。

理想的 AI 转型:从汽车到空间机器人的跨越

随着 AI 成果频现,理想已摆脱“家用车”标签,转向技术驱动型企业——一个 AI 赋能、超越汽车边界的空间机器人玩家。

这一转变水到渠成:造车全链闭环稳固,VLA 技术全栈上车,预研水准获全球认可(如 ICCV 的《RoboPearls: Editable Video Simulation for Robot Manipulation》——3D 高斯泼溅的可编辑视频仿真,用于机器人任务数据生成)。

更关键是“研产闭环”:研究源于量产痛点,成果速落地。典型如 CoRL 2024 的《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》——VLM 与端到端双架构,已量产并显著提升辅助驾驶。

综观今年 AI 车企,算法、商业与研产三闭环齐备者凤毛麟角。特斯拉领衔,理想紧随。

这份融合车企底蕴的 AI 阵营,将日益壮大……但当下,仅是破圈伊始。从学术到产业,再到大众认知,理想正以崭新姿态前行。

趋势已定,三日不见,当刮目相看。

泳装少女
黑长直
您必须 登录 后才能评论。