动态列表

  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员

IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

CV君 2025-10-08 12:09 江苏

虚拟世界能否以假乱真?Drive&Gen用AI“考官”评估并提升自动驾驶。

最近,自动驾驶领域迎来了两位“新玩家”:端到端(End-to-End, E2E)驾驶模型和视频生成模型。E2E模型试图用一个“大模型”直接从传感器输入预测驾驶操作,大大简化了传统复杂的模块化系统;而视频生成模型则为我们描绘了一个美好的前景——在虚拟世界里无限“免费”地测试自动驾驶。

但问题也随之而来:AI生成的视频真的足够“真实”,能骗过自动驾驶系统,并用来做严肃的评估吗?我们又该如何深入了解E2E驾驶模型的“脾气”,修复它的短板,让它在没见过的新场景(比如突然的暴雨天)里也能从容应对?

为了回答这些问题,来自约翰霍普金斯大学、Waymo和谷歌DeepMind的研究者们联手,在即将于IROS 2025会议上发表的论文中,提出了一个名为 Drive&Gen 的新框架。这个名字很直白,就是将 驾驶(Drive)生成(Gen) 结合起来,旨在连接E2E驾驶模型和生成式世界模型,共同评估和提升彼此。

  • 论文: Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models

  • 作者: Jiahao Wang, Zhenpei Yang, Yijing Bai, Yingwei Li, Yuliang Zou, Bo Sun, Abhijit Kundu, Jose Lezama, Luna Yue Huang, Zehao Zhu, Jyh-Jing Hwang, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang

  • 机构: 约翰霍普金斯大学、Waymo、谷歌DeepMind

  • 论文地址: https://arxiv.org/abs/2510.06209

背景:当E2E驾驶遇上生成式AI

传统的自动驾驶系统像一个部门林立的大公司,感知、预测、规划等模块各司其职,虽然稳定,但流程繁琐,一个环节出错就可能影响全局。而E2E模型就像一个全能的创业团队,直接从摄像头画面等原始输入,一步到位输出驾驶决策,简洁高效,潜力巨大。

与此同时,视频生成模型的进步让我们看到了构建“数字孪生”世界的希望。如果能随心所欲地生成各种天气、光照、交通状况的驾驶视频,无疑将大大降低路测成本和风险,加速自动驾驶的迭代。

然而,理想很丰满,现实却很骨感。一方面,我们很难判断生成的视频在“驾驶模型”眼中是否真实。人眼看着没问题,可能在模型看来却漏洞百出。另一方面,E2E模型像个“黑箱”,我们虽然知道它很强,但不知道它到底学到了什么,有什么偏见,以及在面对训练数据里很少见的场景(即“分布外”场景)时,它能否做出正确决策。

Drive&Gen框架正是为了解决这一矛盾而生。它巧妙地将两者结合:用E2E规划器作为“考官”,去评估生成视频的真实性;反过来,再利用生成模型的可控性,创造出各种“极限挑战”场景,去诊断和提升E2E规划器的能力。

Drive&Gen:如何让虚拟照进现实?

Drive&Gen的核心思想是“协同评估”。它包含一个可控的视频生成模型和一个E2E驾驶规划器。

可控的视频生成

研究者们扩展了一个名为W.A.L.T的视频扩散模型,使其能够接受多种条件的控制,生成高度定制化的驾驶视频。

这个模型的输入控制信号非常丰富,包括:

  • 场景布局: 道路地图、车辆的位置和大小(即边界框)、自车姿态。

  • 运行条件: 一天中的具体时间(通过更精确的太阳角度来控制光照)、天气(如下雨或晴天)。

通过这些控制,模型不仅能复现和真实视频几乎一样的场景,还能“凭空”创造出真实世界中不存在的场景,比如将一个晴朗的白天场景无缝切换到大雨滂沱的午夜。

用驾驶模型评估真实性:行为置换检验

如何量化生成视频的“真实性”?传统的视频质量指标如FVD(Fréchet Video Distance)并不完全适用,因为它更关注像素层面的分布差异,而无法衡量视频是否符合驾驶逻辑。

为此,论文提出了一个全新的评估指标——行为置换检验(Behavioral Permutation Test, BPT)。这个方法非常巧妙,它的核心思想是:如果一个生成的视频足够真实,那么E2E驾驶模型在看到这个生成视频和它对应的真实视频后,应该做出基本相同的驾驶决策。

具体来说,BPT会比较规划器在真实视频和生成视频上预测出的轨迹集合。如果两个轨迹集合的差异很小,小到像是在一个集合内部随机抽样产生的波动,那么BPT就判定生成视频“骗”过了规划器,是足够真实的。

实验证明,BPT比FVD和ADE(平均位移误差)等传统指标更能捕捉到影响驾驶决策的关键差异。例如,当移除场景中的车辆(边界框)信息时,生成的视频内容会大变,此时BPT和ADE指标都会显著恶化,而FVD指标却变化不大,说明FVD没能抓住重点。

实验:合成数据真的能提升性能吗?

有了可靠的评估方法和可控的生成模型,研究者们进行了一系列实验,证明了Drive&Gen框架的价值。

评估生成视频质量

他们验证了生成视频的质量。在与真实视频相同的条件下,模型生成的视频能够让规划器产生非常相似的轨迹预测。BPT的“失败拒绝率”达到了 69.62%(理论上限为95%),这说明在大多数情况下,规划器无法区分真实视频和生成视频。

诊断并提升E2E规划器

更重要的价值在于,Drive&Gen可以用来诊断和提升E2E规划器的泛化能力。研究者们利用生成模型,创造了大量真实数据中稀缺的“分布外”场景,如雨天和夜晚。

他们将这些合成数据与少量真实数据混合,用来微调E2E规划器。结果令人振奋:

  • 整体性能提升: 加入合成数据后,规划器在真实世界验证集上的5秒平均位移误差(ADE@5s)从0.7548降低到了 0.7333

  • 雨天场景: 在雨天这个典型的分布外场景中,性能提升尤为明显,ADE@5s从0.8536降低到 0.8382

  • 夜间场景: 在夜间场景下,性能同样得到改善,ADE@5s从0.7372降低到 0.7101

定性结果也同样说明了问题。如下图所示,原始模型在绿灯前会犹豫不决地停车,或者在绕过停靠车辆时动作迟缓;而经过合成数据微调后,模型能做出更果断、更安全的驾驶决策。

这些实验有力地证明,高质量、可控的合成数据是一种极具成本效益的方案,能够有效弥补真实世界数据的不足,帮助自动驾驶模型拓展其运行设计域(Operational Design Domains, ODD)。

CV君觉得,这项工作最核心的贡献在于,它不仅仅是展示了一个更酷的视频生成模型,而是为“生成式AI如何赋能自动驾驶研发”这一核心问题,提供了一套系统性的评估和优化方法论。它让我们离那个“在元宇宙里训练和测试自动驾驶”的未来又近了一步。

大家对这种用生成数据来“考验”和“训练”自动驾驶的方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们