动态列表

  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 机器人全产业链接会 FAIR plus 2026新闻发布会在京召开
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道
  • 吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
  • 打开高德的理由又多一条!全球首个「需求链智能调度」AI地图上线
  • 核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相!
  • 一句话搞定多任务出行,高德用空间智能重新定义地图
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
  • 谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
  • 追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
  • Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
  • 多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
  • Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究
  • 扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
  • AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
  • LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
  • xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情
  • 链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
  • 李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍
  • ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿
  • 谷歌超级编码智能体正式上岗!125刀大会员,每天300任务任意跑
  • Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道
  • 美国CS就业梦碎!狂投5000家0 Offer,名校毕业00后被麦当劳惨拒
  • 3 分钟,我学会了像鸟儿一样飞行 | New Things
  • 从隐私计算迈向六大数据流通全栈技术,“隐语”开源社区升级
  • 7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本
  • 小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!
  • 对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」
  • 告别「偏科生」时代!36 万的坦克500,让对手从此无路可走
  • 万字长谈王小川:不再迎合他人做学霸,我要解自己的命题
  • 刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
  • ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
  • 复旦&微软提出StableAvatar: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
  • 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
  • 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
  • ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
  • 苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
  • GNN+KAN,把三角函数当「激活」选项,山大、南洋理工让分子图更会读化学子结构
  • 港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
  • 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
  • AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
  • 奥特曼公然叫板马斯克!重金杀入脑机接口,硅谷两大巨头彻底决裂
  • AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
  • 马斯克删除xAI「研究员」职位引爆网络!LeCun怒批:如此暴力将扼杀创新
  • OpenAI女CEO太狠了!智商148,GPT-5才是真印钞机
  • AI 和海外游戏发力,腾讯重回 7000 亿美金
  • ICML 2025 | 奖励模型还用人标?APEC用对抗模仿生成偏好,泛化能力直线上升
  • Attention Sink的起源找到了?清华×美团首次锁定MoE中的「超级专家」
  • 博士申请 | 休斯敦大学计算机系刘锦阳老师招收高性能计算/数据压缩方向博士生
  • Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
  • 告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
  • AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」
  • Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
  • AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
  • 研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
  • 多模态大脑建模技术迈入新纪元:Meta 10亿参数模型获Algonauts 2025大脑建模竞赛冠军
  • 当人们怀念 GPT-4o,他们在「怀念」什么?
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
  • IEEE TPAMI 南洋理工&哈工大提出 MARCONet++ 攻克中文文本图像超分难题
  • 耶鲁&大连理工&南洋理工等提出MDCNeXt:X射线下的“动力电池缺陷精准检测”新范式
  • 6秒造一个「视频博主」,Pika让一切图片开口说话
  • 破解AI创企的「不可能三角」,解药不止「大模型」
  • OpenAI和奥特曼将投资一家脑机接口公司,直接与马斯克的Neuralink竞争
  • 大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
  • 传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome
  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • 北京内推 | 度小满金融视觉和多模态团队招聘视觉多模态算法实习生
  • 后训练轻量「小枝」强势出击!极限剪裁视觉token,推理加速154%
  • 实验室抢显卡抢破头?A800/H800骨折价来袭,超值返券助你轻松冲DDL!
  • TCSVT 2025 | 跨模态学习助力复杂工业过程异常检测:FmFormer框架与基准测试新突破
  • ICCV 2025 | LightSwitch:CMU提出材质引导的扩散模型,2分钟实现高质量三维场景重打光
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元

一张图,开启四维时空:4DNeX让动态世界 「活」起来

图片

仅凭一张照片,能否让行人继续行走、汽车继续飞驰、云朵继续流动,并让你从任意视角自由观赏?

南洋理工大学 S-Lab 携手上海人工智能实验室,给出肯定答案 ——4DNeX。作为全球首个仅依赖单张输入即可直接输出 4D 动态场景的前馈(feed-forward) 框架,4DNeX 摆脱了游戏引擎与合成数据的束缚,首次大规模利用真实世界动态影像进行训练,实现「时空视频」的高效、多视角、高保真渲染。

在多项基准测试中,4DNeX 以显著优势超越 Free4D、4Real 等当前最佳方法,真正把「一张图生成四维世界」的科幻概念带进了现实。

  • 论文链接:https://4dnex.github.io/4DNeX.pdf

  • 项目主页:https://4dnex.github.io/ 

1. 研究背景

世界模型正成为 AI 研究的高频热词。 Google DeepMind 近期迭代的 Genie 3 已能在高质量游戏数据上生成长达数分钟的交互式视频,但目前尚且缺乏在诸多真实场景上的验证。

世界模型发展的一个重要拐点在于:让模型学会刻画我们身处的动态 3D 世界,并服从其物理定律。 唯有如此,生成的内容才能既逼真又可导,进而支持「反事实」推演 —— 在虚拟中重放、预测甚至改写现实。这一能力不仅可构成下一代 AR/VR 与具身智能的重要研究基石,更是迈向可信 AGI 的必经之路。

构建 4D 世界模型的关键能力,在于能否持续产出高保真、可扩展的 4D 内容,其主要在于以下三个方面的研究:

  • 数据 – 相较于游戏等引擎合成的数据,真实采集的数据虽能保留物理属性,却难以大量获取,更难标注;

  • 表征 - 如何兼顾不同模态(如材质和几何等)特性,设计选取高效的 3D/4D 表征仍是学界长久未竟的科研命题;

  • 架构 – 当前的不同生成模型架构互有优劣,如何更好地继承现有模型先验,保障高质量仍需探索。

鉴于此,「真实高效」的 4D 世界模型构建非常重要,也充满挑战。

2. 4DNeX-10M Dataset  近千万帧带 4D 标注的视频集

为破解高质量真实 4D 数据稀缺的瓶颈,4DNeX 首度发布 4DNeX-10M—— 近千万帧、多场景、带伪标签的超大规模 4D 视频数据集。其覆盖室内外环境、自然景观与人体运动等多元主题,尤以海量「以人为中心」的 4D 数据为特色,囊括丰富的物理属性、动态细节与交互行为,为 4D 世界模型的构建奠定坚实基础。

图片

      图 1 4DNeX-10M Dataset 包含了不同来源且丰富多样的动态数据

为支撑 4DNeX-10M 的构建,研究者们同步设计了一条全自动的数据–标注管线(见下图)。

  • 数据源:单目实拍视频数据,其中动态场景取自 Pexels、Vimeo 等公开视频库;静态场景则整合 RealEstate-10K、DL3DV 等。

  • 首轮清洗:基于光流一致性、亮度统计、运动强度及 OCR 文字检测,剔除低质片段。

  • 标签制作:

  • 内容:LLaVA-Next Video 给视频片段打标。

  • 几何:静态场景使用 Dust3R 三维重建,动态场景使用 Monst3R / MegaSam 四维重建,输出 Semi-Dense 3D/4D 点云图、几何标签。

  • 质量把关:联合置信度(MCV、HCPR 等)与运动平滑度等多重阈值,筛除几何漂移或动态异常序列。

最终打标完成的 4DNeX-10M 数据集构成如图右下角统计所示。

图片

      图 2 4DNeX-10M 构建管线以及数据统计情况

3. 4DNeX 方法架构

表征选取

在 4D 内容生成中,传统「4D」指 3D 空间几何外加时间轴;而在世界模型的语境下,RGB 视频携带的材质、光照与语义信息同样关键。4DNeX 因而提出 6D 统一表征:以 RGB 序列刻画外观(3 维)并以 XYZ 序列编码几何(3 维)。该设计无需显式相机控制,即可同步生成多模态内容,兼顾真实感与物理一致性。

图片

      图 3 不同的 RGB 和 XYZ 模态融合策略

算法框架

4DNeX 框架的技术突破在于「宽度融合」这一关键策略:系统比较五种方案后,研究者们发现将 RGB 与 XYZ 在 token 宽度维度直接拼接,可将跨模态距离压到最低。 相比之下,通道融合会扰乱预训练分布,批处理融合又无法保证对齐。 

图片

      图 4 不同的空间融合策略对比

网络骨架沿用 Wan2.1 视频扩散模型,通过轻量级 LoRA 微调完成适配,主要的策略包括有:

  • 输入端以斜坡深度初始化,先验地逼近自然场景的深度梯度;

  • XYZ 坐标经归一化校正,彻底消除 VAE 潜在空间的分布错位;

  • 软掩码机制在扩散过程中动态约束几何细节,引导结构收敛;

  • 旋转位置编码维持像素级 RGB-XYZ 对齐。

最后,仅需一次轻量重投影即可反算出相机参数,确保输出在物理层面严密自洽。

图片

      图 5 4DNeX 框架总览

4. 实验结果

实验验证显示 4DNeX 在效率与质量上实现双重突破:VBench 测试中,其动态幅度达 100%(超越 Free4D 的 40.1%),时空一致性 96.8% 领先业界。用户研究(23 人评估)更显示 85% 用户偏好其生成效果,尤其在运动幅度与真实感方面优势显著。

生成效果可视化证明模型能力 —— 单图输入可输出连贯动态点云序列(图 5),新视角合成在真实场景(in-the-wild)中保持几何一致性(下图 6);与 Animate124、4Real 等基线对比(下图 7),4DNeX 在树叶摇曳幅度、人体动作自然度等细节表现更优。

      图 6 4DNeX 生成的视频效果(RGB & Point Map)

      图 7 4DNeX 生成未经训练真实世界视频的新视角视频

图片

      图 8 4DNeX 对比其他方法的生成效果

User Study 用户调研结果显示 4DNeX 生成的效果优于 Free4D、4Real、Animate124、GenXD 方法。

图片

      表格 1 User Study 结果对比

消融实验

研究者们还对比了五种融合 RGB 以及 XYZ 的策略,以发现最佳的多模态融合策略。实验一步证实宽度融合策略的关键作用,消除其他方案(如通道融合)的噪声或对齐失败问题。

图片

      图 9 不同融合策略的结果可视化展示

]]>

联系我们