ToolsAi

CV君 2025-10-09 14:47 江苏

双扩散模型回溯历史、预测未来，一举攻克“鬼探头”式轨迹预测难题。

朋友们，今天我们来聊一篇非常有意思的论文，来自威斯康星大学麦迪逊分校、华盛顿大学和同济大学的研究者们，题为《Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction》。

这篇工作主要解决了一个在自动驾驶和人机交互领域里非常棘手，也至关重要的问题：当观测数据极少时，如何准确预测行人的轨迹？ 想象一下，一个行人突然从公交车后面走出来，自动驾驶系统只有一瞬间的观测数据，这种“鬼探头”情景下的预测，直接关系到交通安全。

作者们提出的新框架 Diffusion²，巧妙地利用了两个串联的扩散模型，不仅回溯生成了缺失的历史轨迹，还对其中的不确定性进行了建模，最终在几个主流数据集上实现了目前最好的性能（SOTA）。这个名字也很有意思，Diffusion² 就代表了其核心——双重扩散模型。

论文标题: Diffusion²: Dual Diffusion Model with Uncertainty-Aware Adaptive Noise for Momentary Trajectory Prediction
作者: Yuhao Luo, Yuang Zhang, Kehua Chen, Xinyu Zheng, Shucheng Zhang, Sikai Chen, Yinhai Wang
机构: 威斯康星大学麦迪逊分校、华盛顿大学、同济大学
论文地址: https://arxiv.org/abs/2510.04365

研究背景

在真实的交通环境中，我们很难保证总能获得长时间、高质量的观测数据。尤其是在行人被遮挡后突然出现的情况下，可用的轨迹信息可能只有短短几帧。传统的轨迹预测方法在这种“瞬时轨迹”（momentary trajectory）场景下，性能会大打折扣。

论文中对比了解决该问题的几种思路：

（a）直接利用有限的观测进行预测，效果不佳。（b）联合预测历史和未来，但可能会相互干扰。（c）本文提出的Diffusion²，采用串联方式，先“回溯过去”，再“预测未来”，思路更加清晰。

Diffusion²：双扩散模型如何“追根溯源”？

CV君认为，这篇论文最大的亮点在于它如何“创造性”地处理信息不足的问题。既然眼前的线索不够，那就先“脑补”一下缺失的历史，并且清醒地认识到“脑补”的内容有多大把握。

整个框架如下图所示，主要由两个核心部分组成：

1. 历史轨迹生成 (Backward Prediction)

第一个扩散模型负责“回溯历史”。它接收短暂观测到的轨迹，然后生成一段未被观测到的、合理的历史轨迹。这就像侦探根据现场的蛛丝马迹，推断出受害者之前的行动路线。

2. 未来轨迹预测 (Forward Prediction)

第二个扩散模型则负责“预测未来”。它的输入不仅包括真实观测到的几帧，还包括上一步生成的历史轨迹。结合了更完整的“过去”，模型对“未来”的预测自然更有底气。

3. 不确定性感知与自适应噪声

这里就是精髓所在了。模型非常“诚实”，它知道自己生成的那段历史轨迹（）不一定完全准确，是存在不确定性的。如果盲目信任这些“脑补”的信息，反而可能带偏最终的预测。

Diffusion²用了两个很妙的设计来解决这个问题：

双头参数化机制 (Dual-head Parameterization): 在生成历史轨迹时，不止一个输出头。一个头负责预测轨迹点的位置，另一个头则负责预测这些位置的“偶然不确定性”（aleatoric uncertainty），也就是一个方差。这相当于模型在说：“我猜他之前在这里，但我对这个点的把握只有七成。”
时序自适应噪声 (Temporally Adaptive Noise): 这个不确定性信息会被传递给第二个模型。会根据历史轨迹中每个点的不确定性程度，动态地调整前向扩散过程中的噪声尺度。简单来说，如果某段生成历史的“可信度”低，模型在预测未来时就会减少对它的依赖，从而避免了误差的累积和放大。