动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建

52CV 2025-10-14 12:36 江苏

最近,视频生成生成模型例如 Sora, Veo3 得到了社区的关注。 这些模型能够生成具有视觉吸引力,高度逼真,天马行空的视频。 在这个工作中,我们希望能够重建任意视频,并且实现新视角渲染,把AIGC视频变为可探索的场景,为下游任务,如虚拟现实,增强现实提供便利。

Instant4D 能够在数分钟内重建 Sora 生成的视频

相关工作

近期的动态重建工作可以较好的完成单目重建任务,但是通常依赖点跟踪,深度估计,光流,以及刚体运动规律。由于优化速度慢且参数估计复杂,从未校准的随意视频中重建场景仍然具有挑战性。因此现有的工作 Motion Scaffold, Shape-of-Motion 等通常需要接近一小时来优化一个 仅仅6 秒视频,限制了下游应用的可行性。

Instant4D 解决从未校准的视频序列中高效地单目重建动态场景问题,我们的贡献如下:

  1. 我们提出了 Instant4D,一种现代化的全自动流程,可在几分钟内重建任意的单目视频,并实现了 30 倍加速。

  2. 我们引入了一种网格剪枝策略,可将高斯函数的数量减少 92%,同时保留遮挡结构,并使其可扩展到长视频序列。

  3. 我们提出了一种简化的、各向同性的、运动感知的、适用于单目设置下的4DGS 实现。在 Dycheck 数据集上的性能比当前最先进的方法提高了 29%。

图1: Instant4D 的工作框架我们使用深度视觉SLAM模型和Unidepth来获取相机参数和度量深度估计。单目深度将进一步优化为一致的视频深度。之后,我们从一致的深度进行反向投影以获得密集点云,并进一步通过体素滤波获得稀疏点云。基于四维高斯初始化,我们可以在2分钟内重建一个场景。

几何重建设计

我们采用了最新的可微SLAM 方法 MegaSAM来获得相机位姿,接着我们视频一致优化深度,并且反投影至世界坐标系,得到密集点云。对于一个时长 4 秒(30 FPS)的 512×512 视频序列进行深度图反向投影,可得到约 30 M 个原始 3D 点。为了减少静态背景的大面积冗余和动态部分的遮挡问题,我们将世界空间划分为规则的体素网格,并仅保留每个已占用体素内点的质心。

除此之外,由于单目重建的特性,部分背景会消失于视锥,使模型认为这是动态点。为此我们采用了 MegaSAM 的中间产物,得到了每个像素点的运动概率。

4D Gaussian Splatting 设计

对于单目优化场景,我们的出发点是提供密集的几何先验,并减少优化的自由度,以实现优化加速和稳健的泛化。对于4 维高斯,我们保留 4D 均值,和对角缩放 ,RGB 常数颜色,剔除高阶 SCH,参数量减少 60% 以上。
给定时间戳 条件 3D 分布:

各向同性高斯

固定旋转 ,空间/时间各一标量缩放,提升单目优化稳定性,根据实验,各向同性设计会提升渲染质量PSNR 1.25 dB

运动感知高斯
利用动静蒙版,对静态区域设置更大时间缩放 ,动态区域设置更小的时间缩放,确保静态高斯不因离可见帧消失于视锥而消失于场景;远离当前帧的动态高斯按:

并且在渲染管线中,我们剔除低透明度高斯,抑制冗余,进一步加速渲染。

实验

Instant4D 在现有的 NVIDIA 和 Dycheck 数据集中取得了最佳优化,渲染速度和内存效率,并且达到了 state-of-the-art 渲染质量。

表一: Nvidia 数据集效果比较,相比 InstantSplat 和Casual-FVS 我们实现了 8 倍加速,10 倍的实时渲染速度加速,和更高的 渲染质量

图2:Nvidia 数据集可视化

表二: Dycheck 数据集效果比较,我们实现相比基线的30 倍加速

本文为粉丝投稿,投稿请发邮件amos@52cv.net

阅读原文

跳转微信打开

联系我们