动态列表

  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道

Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题

CV君 2025-10-09 14:47 江苏

双扩散模型回溯历史、预测未来,一举攻克“鬼探头”式轨迹预测难题。

朋友们,今天我们来聊一篇非常有意思的论文,来自威斯康星大学麦迪逊分校、华盛顿大学和同济大学的研究者们,题为《Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction》。

这篇工作主要解决了一个在自动驾驶和人机交互领域里非常棘手,也至关重要的问题:当观测数据极少时,如何准确预测行人的轨迹? 想象一下,一个行人突然从公交车后面走出来,自动驾驶系统只有一瞬间的观测数据,这种“鬼探头”情景下的预测,直接关系到交通安全。

作者们提出的新框架 Diffusion²,巧妙地利用了两个串联的扩散模型,不仅回溯生成了缺失的历史轨迹,还对其中的不确定性进行了建模,最终在几个主流数据集上实现了目前最好的性能(SOTA)。这个名字也很有意思,Diffusion² 就代表了其核心——双重扩散模型。

  • 论文标题: Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction

  • 作者: Yuhao Luo, Yuang Zhang, Kehua Chen, Xinyu Zheng, Shucheng Zhang, Sikai Chen, Yinhai Wang

  • 机构: 威斯康星大学麦迪逊分校、华盛顿大学、同济大学

  • 论文地址: https://arxiv.org/abs/2510.04365

研究背景

在真实的交通环境中,我们很难保证总能获得长时间、高质量的观测数据。尤其是在行人被遮挡后突然出现的情况下,可用的轨迹信息可能只有短短几帧。传统的轨迹预测方法在这种“瞬时轨迹”(momentary trajectory)场景下,性能会大打折扣。

论文中对比了解决该问题的几种思路:

(a)直接利用有限的观测进行预测,效果不佳。(b)联合预测历史和未来,但可能会相互干扰。(c)本文提出的Diffusion²,采用串联方式,先“回溯过去”,再“预测未来”,思路更加清晰。

Diffusion²:双扩散模型如何“追根溯源”?

CV君认为,这篇论文最大的亮点在于它如何“创造性”地处理信息不足的问题。既然眼前的线索不够,那就先“脑补”一下缺失的历史,并且清醒地认识到“脑补”的内容有多大把握。

整个框架如下图所示,主要由两个核心部分组成:

1. 历史轨迹生成 (Backward Prediction)

第一个扩散模型 负责“回溯历史”。它接收短暂观测到的轨迹 ,然后生成一段未被观测到的、合理的历史轨迹 。这就像侦探根据现场的蛛丝马迹,推断出受害者之前的行动路线。

2. 未来轨迹预测 (Forward Prediction)

第二个扩散模型 则负责“预测未来”。它的输入不仅包括真实观测到的几帧,还包括上一步生成的历史轨迹。结合了更完整的“过去”,模型对“未来”的预测自然更有底气。

3. 不确定性感知与自适应噪声

这里就是精髓所在了。模型非常“诚实”,它知道自己生成的那段历史轨迹()不一定完全准确,是存在不确定性的。如果盲目信任这些“脑补”的信息,反而可能带偏最终的预测。

Diffusion²用了两个很妙的设计来解决这个问题:

  • 双头参数化机制 (Dual-head Parameterization): 在生成历史轨迹时,不止一个输出头。一个头负责预测轨迹点的位置,另一个头则负责预测这些位置的“偶然不确定性”(aleatoric uncertainty),也就是一个方差。这相当于模型在说:“我猜他之前在这里,但我对这个点的把握只有七成。”

  • 时序自适应噪声 (Temporally Adaptive Noise): 这个不确定性信息会被传递给第二个模型 会根据历史轨迹中每个点的不确定性程度,动态地调整前向扩散过程中的噪声尺度。简单来说,如果某段生成历史的“可信度”低,模型在预测未来时就会减少对它的依赖,从而避免了误差的累积和放大。

整个去噪过程,就像从一团迷雾中逐渐勾勒出清晰的路径,充满了“生成之美”。

实验效果:不光思路新,效果还好

理论说得好,还得看疗效。论文在两个主流的行人轨迹预测数据集 ETH/UCY 和 Stanford Drone 上进行了验证。

定量分析

结果显示,Diffusion² 在瞬时轨迹预测任务上,将平均位移误差(ADE)和最终位移误差(FDE)都刷到了新的SOTA水平,显著优于之前的方法。

同时,其推理延迟也处于一个可接受的范围,证明了方法的实用性。

定性分析

从可视化的结果来看,Diffusion² 生成的轨迹(蓝色和橙色虚线)也比之前的方法(品红色虚线)更贴近真实的轨迹(浅蓝色实线)。

下面这张图展示了更多在不同场景下的预测结果,可以看到模型能够生成多样且合理的未来轨迹。

当然,没有完美的模型。作者也很坦诚地展示了一些失败案例,比如在行人轨迹发生剧烈、非典型转弯时,模型的预测就会出现偏差。

消融实验

为了验证每个模块的有效性,作者还进行了消融研究。结果表明,无论是“回溯历史”这一步,还是“不确定性估计”和“自适应噪声”模块,都对最终的性能有关键贡献。

总的来说,Diffusion² 通过一个巧妙的双阶段扩散框架,并显式地对生成信息的不确定性进行建模和利用,为解决极端场景下的轨迹预测问题提供了一个非常漂亮、有效的思路。

大家对这种“预测过去”来辅助“预测未来”的思路怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们