动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!

CV君 2025-10-19 13:12 江苏

  • 论文标题: OccScene: Semantic Occupancy-based Cross-task Mutual Learning for 3D Scene Generation

  • 作者: Bohan Li, Xin Jin, Jianan Wang, Yukai Shi, Yasheng Sun, Xiaofeng Wang, Zhuang Ma, Baao Xie, Chao Ma, Xiaokang Yang, Wenjun Zeng

  • 机构: 上海交通大学, 宁波东方理工大学,Astribot, PhiGent Robotics

  • 论文地址: https://arxiv.org/abs/2412.11183

  • 录用期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

🎯 研究背景:当生成模型遇上自动驾驶

在自动驾驶系统的研发中,高质量、大规模的标注数据是训练感知模型的“燃料”。但获取这些数据费时费力,成本高昂。因此,学界和业界开始将目光投向生成模型,希望用AI来创造合成数据,从而“喂饱”感知模型。

然而,传统的做法通常将“生成”和“感知”作为两个独立的环节。生成模型只管“画画”,画出来的场景虽然好看,但可能不符合真实世界的物理规律和几何结构,对于下游的感知任务来说,这些“华而不实”的数据价值有限。OccScene要解决的正是这个“学用脱节”的问题

🌟 核心亮点与贡献

OccScene 首次实现了 3D 场景生成与语义Occupancy感知的深度融合,通过创新的联合扩散框架,让生成与感知任务“互惠互利”,实现“1+1>2”的效果。

  1. 范式创新 (联合学习框架) :提出了一个统一的感知-生成框架,感知模型为生成提供精细的几何与语义先验,生成的合成数据反哺感知模型,形成良性循环。

  2. 技术突破 (Mamba对齐模块) :设计了新颖的基于Mamba的双重对齐模块 (MDA) ,高效地对齐了相机轨迹、语义Occupancy与扩散特征,确保了生成内容(尤其是视频)的跨视角一致性和几何精确性。

  3. 实用价值 (SOTA性能) :仅需文本提示,即可同时生成高质量的图像/视频以及对应的3D语义占据信息。作为一种即插即用的训练策略,它还能显著提升现有SOTA感知模型的性能。

  4. 理论支撑 (协同进化) :通过互学习机制推动模型找到更宽、更稳定的损失谷底,避免了独立学习中可能出现的局部极小值停滞问题,实现了生成与感知的协同进化。

🎯 与传统方法的本质区别

传统方法

OccScene 创新

❌ 生成与感知分离处理

联合学习框架,双向促进

❌ 依赖真实标注数据

仅需文本提示,灵活生成多样场景

❌ 粗粒度几何控制

细粒度语义Occupancy引导,几何更精确

❌ 主观质量驱动

感知任务导向,生成数据实用性强

🏗️ 核心技术解析

一、联合感知-生成扩散框架 (Joint Perception-Generation Diffusion)

OccScene 的核心在于将语义Occupancy预测文本驱动生成统一到单个扩散过程中。感知模型不再是独立的下游任务,而是作为“指导者”深度参与到生成环节。

🔄 两阶段训练策略

阶段一:生成器调优

  • 目标:让生成器学会理解Occupancy的几何约束。

  • 做法:冻结一个预训练好的感知模型权重,仅训练扩散UNet,使其学会在语义Occupancy条件的引导下生成真实场景。

阶段二:联合优化 (Mutual Learning)

  • 目标:实现生成与感知的双向促进。

  • 做法:同时解冻并训练扩散UNet和感知模型。生成器在感知器的指导下创造更多样、更困难的合成数据,这些高质量数据反过来提升感知器的性能,尤其是在处理罕见场景(corner case)时。

📊 联合损失函数

为了在联合优化阶段平衡两个任务,设计了动态加权的损失函数:

其中, 是标准的扩散模型损失。感知损失 包含语义、几何和类别加权损失:

关键洞察:通过噪声水平 进行动态加权。在去噪早期(较大,噪声多),感知模型的监督权重较低;随着图像变清晰(变小,噪声少),其监督权重逐渐增强,确保了训练的稳定性。

二、基于 Mamba 的双重对齐模块 (MDA)

为了让语义Occupancy这个“3D地图”和生成过程中的特征(diffusion latent)完美对齐,研究者们引入了 Mamba-based Dual Alignment (MDA) 模块,这也是性能超越传统Attention架构的关键。

MDA模块巧妙地利用Mamba线性复杂度和长序列建模的优势,实现了两大对齐:

  1. 跨视角相机编码与对齐:通过可变形3D卷积和相机参数编码,为每个视角的生成过程提供与之匹配的、视角感知的Occupancy特征,从而保证了视频生成时序上的一致性。

  2. 序列特征编码与融合:利用双向Mamba块并行扫描深度维度的Occupancy特征和时序维度的潜在特征,高效地融合空间几何与时间上下文信息。最后通过一个零卷积层将增强后的特征注入扩散UNet,既保留了原始生成能力,又引入了精确的几何语义指导。

MDA模块的可视化热力图证明,它能有效地从时间和语义占据中高亮并对齐相关的上下文信息。

三、推理过程的自我优化

OccScene的推理过程是一个独特的闭环:

  1. 从纯高斯噪声开始迭代去噪。

  2. 每一步,解码出的(含噪)图像都会被送入感知模型。

  3. 感知模型预测出当前的语义Occupancy。

  4. 这个预测出的Occupancy立即作为条件,反馈给生成器的同一步,指导下一步的去噪。

这个“边生成、边感知、边校正”的自我优化过程,确保了最终生成结果的几何一致性和语义准确性,实现了“图像越清晰 → Occupancy越准确 → 生成质量越高”的正向循环。

📊 实验结果与分析

1. 3D场景生成质量

OccScene在室内、室外、单图和视频生成任务上均取得了SOTA性能。

数据集

方法

FID (图像)↓

FVD (视频)↓

NYUv2 (室内)

SD (Finetune)

47.82

-

NYUv2 (室内)

ControlNet

50.61

-

NYUv2 (室内)

OccScene15.54

-

NuScenes (室外)

OccScene11.87

-

SemanticKITTI (室外)

OccScene19.86113.28

定性分析:相比传统方法,OccScene生成的场景在几何上更合理(如车辆形状正常),细节更清晰(如远处景物),并且在跨视角视频中保持了高度的逻辑一致性。

与基线模型相比,OccScene生成的几何形状更合理,细节更清晰。

OccScene在不同视角下生成的结果更一致、更合理。

在3D语义场景生成上,OccScene能生成更完整的场景和更精细的物体结构。

2. 对下游感知任务的提升

将OccScene作为数据增强策略,可以显著提升现有SOTA感知模型的性能。

数据集

感知模型

基线 mIoU

+ OccScene mIoU

提升幅度 (↑)

NYUv2

MonoScene

26.94

29.78+2.84

SemanticKITTI

MonoScene

11.08

14.98+3.90

SemanticKITTI

TPVFormer

7.8

12.2+4.4

NuScenes

MonoScene

-

-

+4.10

结论:这证明了OccScene生成的合成数据质量高、信息量大,能有效帮助感知模型学习更鲁棒的特征。

3. 消融实验

组件/策略

FID↓

mIoU↑

推理时间(s)↓

学习策略

离线生成

28.52

12.94

-

联合学习 (JDS)

19.8615.70

-

对齐模块架构

Attention-based

25.71

-

4.09

GRU-based

24.54

-

3.27

Mamba-based (MDA)

19.86

-

2.76

关键发现

  1. 联合学习至关重要:相比离线生成数据再训练的模式,联合学习策略在生成质量(FID)和感知性能(mIoU)上都取得了压倒性胜利。

  2. Mamba架构高效卓越:MDA模块不仅效果最好(FID最低),而且推理速度最快,相比Attention架构节省了32.5% 的时间。

学习曲线对比联合学习(红色)的损失曲线更平滑,最终性能也更高,证明了“1+1>2”的效果。

🎯 总结与应用价值

OccScene通过一个设计优雅的“感知-生成”互学习框架,成功地将3D场景的生成与感知两个任务从彼此割裂推向了深度融合。这种“感知驱动生成,生成反哺感知”的闭环模式,不仅解决了生成模型“心中无数”的几何难题,也为感知模型提供了源源不断的高质量“养料”。

核心应用价值

  • 自动驾驶仿真:生成高保真、多样化的驾驶场景,特别是各种极端(corner case)场景,以低成本增强系统的鲁棒性。

  • 机器人与AR/VR:为室内外场景的导航、交互提供可控、可编辑的虚拟环境。

  • 通用数据增强:作为一种即插即用的数据生成器,为各类下游3D视觉任务提供高质量的训练数据,有效解决数据稀缺问题。

阅读原文

跳转微信打开

联系我们