CV君 2025-10-19 13:12 江苏
论文标题: OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation
作者: Bohan Li, Xin Jin, Jianan Wang, Yukai Shi, Yasheng Sun, Xiaofeng Wang, Zhuang Ma, Baao Xie, Chao Ma, Xiaokang Yang, Wenjun Zeng
机构: 上海交通大学, 宁波东方理工大学,Astribot, PhiGent Robotics
录用期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
🎯 研究背景:当生成模型遇上自动驾驶
在自动驾驶系统的研发中,高质量、大规模的标注数据是训练感知模型的“燃料”。但获取这些数据费时费力,成本高昂。因此,学界和业界开始将目光投向生成模型,希望用AI来创造合成数据,从而“喂饱”感知模型。
然而,传统的做法通常将“生成”和“感知”作为两个独立的环节。生成模型只管“画画”,画出来的场景虽然好看,但可能不符合真实世界的物理规律和几何结构,对于下游的感知任务来说,这些“华而不实”的数据价值有限。OccScene要解决的正是这个“学用脱节”的问题。
🌟 核心亮点与贡献
OccScene 首次实现了 3D 场景生成与语义Occupancy感知的深度融合,通过创新的联合扩散框架,让生成与感知任务“互惠互利”,实现“1+1>2”的效果。
范式创新 (联合学习框架) :提出了一个统一的感知-生成框架,感知模型为生成提供精细的几何与语义先验,生成的合成数据反哺感知模型,形成良性循环。
技术突破 (Mamba对齐模块) :设计了新颖的基于Mamba的双重对齐模块 (MDA) ,高效地对齐了相机轨迹、语义Occupancy与扩散特征,确保了生成内容(尤其是视频)的跨视角一致性和几何精确性。
实用价值 (SOTA性能) :仅需文本提示,即可同时生成高质量的图像/视频以及对应的3D语义占据信息。作为一种即插即用的训练策略,它还能显著提升现有SOTA感知模型的性能。
理论支撑 (协同进化) :通过互学习机制推动模型找到更宽、更稳定的损失谷底,避免了独立学习中可能出现的局部极小值停滞问题,实现了生成与感知的协同进化。
🎯 与传统方法的本质区别
传统方法 | OccScene 创新 |
---|---|
❌ 生成与感知分离处理 | ✅ 联合学习框架,双向促进 |
❌ 依赖真实标注数据 | ✅ 仅需文本提示,灵活生成多样场景 |
❌ 粗粒度几何控制 | ✅ 细粒度语义Occupancy引导,几何更精确 |
❌ 主观质量驱动 | ✅ 感知任务导向,生成数据实用性强 |
🏗️ 核心技术解析
一、联合感知-生成扩散框架 (Joint Perception-Generation Diffusion)
OccScene 的核心在于将语义Occupancy预测与文本驱动生成统一到单个扩散过程中。感知模型不再是独立的下游任务,而是作为“指导者”深度参与到生成环节。
🔄 两阶段训练策略
阶段一:生成器调优
目标:让生成器学会理解Occupancy的几何约束。
做法:冻结一个预训练好的感知模型权重,仅训练扩散UNet,使其学会在语义Occupancy条件的引导下生成真实场景。
阶段二:联合优化 (Mutual Learning)
目标:实现生成与感知的双向促进。
做法:同时解冻并训练扩散UNet和感知模型。生成器在感知器的指导下创造更多样、更困难的合成数据,这些高质量数据反过来提升感知器的性能,尤其是在处理罕见场景(corner case)时。
📊 联合损失函数
为了在联合优化阶段平衡两个任务,设计了动态加权的损失函数:
其中, 是标准的扩散模型损失。感知损失 包含语义、几何和类别加权损失:
关键洞察:通过噪声水平 进行动态加权。在去噪早期(较大,噪声多),感知模型的监督权重较低;随着图像变清晰(变小,噪声少),其监督权重逐渐增强,确保了训练的稳定性。
二、基于 Mamba 的双重对齐模块 (MDA)
为了让语义Occupancy这个“3D地图”和生成过程中的特征(diffusion latent)完美对齐,研究者们引入了 Mamba-based Dual Alignment (MDA) 模块,这也是性能超越传统Attention架构的关键。
MDA模块巧妙地利用Mamba线性复杂度和长序列建模的优势,实现了两大对齐:
跨视角相机编码与对齐:通过可变形3D卷积和相机参数编码,为每个视角的生成过程提供与之匹配的、视角感知的Occupancy特征,从而保证了视频生成时序上的一致性。
序列特征编码与融合:利用双向Mamba块并行扫描深度维度的Occupancy特征和时序维度的潜在特征,高效地融合空间几何与时间上下文信息。最后通过一个零卷积层将增强后的特征注入扩散UNet,既保留了原始生成能力,又引入了精确的几何语义指导。
MDA模块的可视化热力图证明,它能有效地从时间和语义占据中高亮并对齐相关的上下文信息。
三、推理过程的自我优化
OccScene的推理过程是一个独特的闭环:
从纯高斯噪声开始迭代去噪。
在每一步,解码出的(含噪)图像都会被送入感知模型。
感知模型预测出当前的语义Occupancy。
这个预测出的Occupancy立即作为条件,反馈给生成器的同一步,指导下一步的去噪。
这个“边生成、边感知、边校正”的自我优化过程,确保了最终生成结果的几何一致性和语义准确性,实现了“图像越清晰 → Occupancy越准确 → 生成质量越高”的正向循环。
📊 实验结果与分析
1. 3D场景生成质量
OccScene在室内、室外、单图和视频生成任务上均取得了SOTA性能。
数据集 | 方法 | FID (图像)↓ | FVD (视频)↓ |
---|---|---|---|
NYUv2 (室内) | SD (Finetune) | 47.82 | - |
NYUv2 (室内) | ControlNet | 50.61 | - |
NYUv2 (室内) | OccScene | 15.54 | - |
NuScenes (室外) | OccScene | 11.87 | - |
SemanticKITTI (室外) | OccScene | 19.86 | 113.28 |
定性分析:相比传统方法,OccScene生成的场景在几何上更合理(如车辆形状正常),细节更清晰(如远处景物),并且在跨视角视频中保持了高度的逻辑一致性。
与基线模型相比,OccScene生成的几何形状更合理,细节更清晰。
OccScene在不同视角下生成的结果更一致、更合理。
在3D语义场景生成上,OccScene能生成更完整的场景和更精细的物体结构。
2. 对下游感知任务的提升
将OccScene作为数据增强策略,可以显著提升现有SOTA感知模型的性能。
数据集 | 感知模型 | 基线 mIoU | + OccScene mIoU | 提升幅度 (↑) |
---|---|---|---|---|
NYUv2 | MonoScene | 26.94 | 29.78 | +2.84 |
SemanticKITTI | MonoScene | 11.08 | 14.98 | +3.90 |
SemanticKITTI | TPVFormer | 7.8 | 12.2 | +4.4 |
NuScenes | MonoScene | - | - | +4.10 |
结论:这证明了OccScene生成的合成数据质量高、信息量大,能有效帮助感知模型学习更鲁棒的特征。
3. 消融实验
组件/策略 | FID↓ | mIoU↑ | 推理时间(s)↓ |
---|---|---|---|
学习策略 | |||
离线生成 | 28.52 | 12.94 | - |
联合学习 (JDS) | 19.86 | 15.70 | - |
对齐模块架构 | |||
Attention-based | 25.71 | - | 4.09 |
GRU-based | 24.54 | - | 3.27 |
Mamba-based (MDA) | 19.86 | - | 2.76 |
关键发现:
联合学习至关重要:相比离线生成数据再训练的模式,联合学习策略在生成质量(FID)和感知性能(mIoU)上都取得了压倒性胜利。
Mamba架构高效卓越:MDA模块不仅效果最好(FID最低),而且推理速度最快,相比Attention架构节省了32.5% 的时间。
联合学习(红色)的损失曲线更平滑,最终性能也更高,证明了“1+1>2”的效果。
🎯 总结与应用价值
OccScene通过一个设计优雅的“感知-生成”互学习框架,成功地将3D场景的生成与感知两个任务从彼此割裂推向了深度融合。这种“感知驱动生成,生成反哺感知”的闭环模式,不仅解决了生成模型“心中无数”的几何难题,也为感知模型提供了源源不断的高质量“养料”。
核心应用价值:
自动驾驶仿真:生成高保真、多样化的驾驶场景,特别是各种极端(corner case)场景,以低成本增强系统的鲁棒性。
机器人与AR/VR:为室内外场景的导航、交互提供可控、可编辑的虚拟环境。
通用数据增强:作为一种即插即用的数据生成器,为各类下游3D视觉任务提供高质量的训练数据,有效解决数据稀缺问题。