动态列表

重磅！DeepSeek再开源：视觉即压缩，100个token干翻7000个
全球首个「长肌腱」AI机器人量产！Nature盛赞的中国方案惊艳IROS现场
甲骨文推出全球最大AI超算，作为OpenAI「星际之门」算力核心
MagicOS已成世界「第三极」，荣耀拿下AI大战叙事权
美国拟减40%国际生，留学风向要变？Nature曝全球高校大洗牌
美 NSA 被曝网攻中国「时间心脏」；微博王高飞：企业别把批评和黑公关混为一谈；传运营艰难，安世中国发公开信回应
扎克伯格急了！Meta内部文件曝光：宁用竞品，也要废掉祖传系统
浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力
英伟达4段简短提示词，IOI夺金！开源模型也能征服最难编程竞赛
超越纯视觉模型！不改VLM标准架构，实现像素级深度预测
5万美元筛选「超级婴儿」, 智商提升15点？马斯克被曝是客户！
NeurIPS 2025 | KAUST与MetaAI提出Vgent：图增强RAG，长视频理解性能超越SOTA 8.6%
TPAMI 2025 OccScene:联合扩散框架，同时推进感知与生成进步，3D场景生成新突破！
不靠RL、不用训练：哈佛「Power Sampling」让基座模型推理媲美GRPO
不用微调！像打方向盘一样“操控”大模型思考：Steering正在改写推理范式
中国AIGC用户破5亿，增长1倍；今年超7成外卖低于15元；新能源事故，「破窗锤」被网友买爆｜极客早知道
AI芯片战争关键一役！英伟达最强Blackwell首次「美国造」
数学界地震！GPT-5连破10道「百年悬案」，陶哲轩：AI革命才刚开始
前OpenAI研究员跨界做文创：Ilya发型帽子走红，AI成潮牌！
训练成本暴降99%，35秒出1分钟高清视频！英伟达MIT等引爆视频AI革命
Karpathy泼冷水：AGI要等10年！根本没有「智能体元年」
早鸟票倒计时2天！全国大模型智能生成大会：推理、多模态、智能体前沿集结
First Try Matters，不是Aha Moment：邴立东团队揭示推理模型靠首答，不靠反思
一致性轨迹强化学习登场：上海AI Lab让扩散语言模型实现全并行少步数推理
传 iPhone 17 Air 表现不佳，砍百万产量；黄仁勋：英伟达中国份额从 95% 降到 0%；AI 致维基百科访问显著下降
马普所&谷歌等提出AnyUp：无需再训练的通用特征上采样，推理即用，效果SOTA！
北大等提出MaskDCPT：通用图像修复预训练新范式，PSNR提升3.77dB
可处理上万变量，攻克高维时序预测难题！华人团队开源模型、基准
Bengio推AGI「高考」，GPT-5单项0分
Hassabis官宣用AI点燃「人造太阳」！无限能源时代加速到来
全球第一，最强OCR之神诞生！百度这个0.9B开源模型问鼎SOTA
太狠了，四条腿被锯掉也能爬！通用大脑开启机器人「无休」时代
零跑，不再「摸着理想过河」
硬刚 Sora 2，谷歌的 Veo 3.1 确实有小惊喜｜AI 上新
NeurIPS 2025 | 上交大提出MM-UPT：多模态大模型的“无监督后训练”范式
从会画画到会思考：快手可灵提出T2I-CoReBench，最强模型也难逃推理瓶颈
Meta花了420万美元、烧掉40万GPU·小时，只为验证一条Sigmoid曲线
张鹏对谈朱啸虎、储瑞松、傅盛：Agentic AI 时代，不要什么东西都自己闷头做
Identity-GRPO：阿里开源多人物定制化视频生成的后训练优化算法
Real-world Video Super-Resolution | VSR的十字路口
蔚来回应外国基金投诉：无事实依据；零跑推D19旗舰SUV，配超大电池；卡西欧推《回到未来》40周年联名表
你的下一个「爱豆」不一定是真人，也可以是AI豆
刚刚，谷歌深夜上新Veo 3.1！网友狂刷2.75亿条，Sora 2要小心了
谷歌142页报告首发揭秘：90%码农每天用AI超2小时！
RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法
谷歌×耶鲁联手发布抗癌神器！AI推理精准狙击「隐身」癌细胞
GPT越来越保守？斯坦福Manning团队提出Verbalized Sampling，让模型重新“多想一点”
ACL 2025 | 北大提出动态焦点解码：让开放生成既“靠谱”又“好看”
统一高效来了！清华发布RLinf-VLA：把VLA+RL的训练与部署“一网打尽”
AI 时代，用一场「快闪」改变命运｜IF 2026「AI 产品快闪」启动召集！
IF 2026 启动：来看看 AI 面前，谁在掌握主动权？
NeurIPS 2025 | 为Sora视频加上“隐形身份证”：清华大学等提出Safe-Sora，时空频率感知水印新框架
从DNN到MLLM的异常之旅：视频异常检测（VAD）范式大迁徙
苹果发布 M5 芯片笔记本和 iPad；微信：长时间不用账号，不再强行回收；乔布斯登上一美元硬币
马斯克的作业还是被奥特曼「抄走了」
苏姿丰出手！Oracle下单5万颗AMD芯片，英伟达王座撼动
具身智能算法哪家强？RoboChallenge见真章！全球首个大规模真机算法评测平台来了
NTU等联合提出A-MemGuard：为AI记忆上锁，投毒攻击成功率暴降95%
苹果M5「夜袭」高通英特尔！AI算力狂飙400%，Pro三剑客火速上新
TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++：4K照片增强仅需13ms，PSNR提升2.64dB！
IDEA提出Rex-Omni：将目标检测变为“下一个点预测”，零样本性能超越DINO
罗福莉担任通讯作者，小米 × 北大联合发布R3：让MoE强化学习从崩盘回归可控
AAAI 2026联合会议征稿开启：大语言模型中的深度逻辑推理
下周见！Wiley Advanced主编论坛@IROS 2025：从审稿人视角重塑论文表达
Altman：ChatGPT将支持成人内容；港版iPhone Air无法用内地eSIM；传雷军一夜掉粉30万｜极客早知道
Karpathy「疯狂之作」：100美元、4小时，就能训练你自己的「小型GPT」
英伟达AI超算3999开售，「掌心之中」可部署所有大参数开源模型！
登顶Hugging Face GAIA全球榜首！中兴超级智能体终结「AI黑盒」时代
AI圈再颠覆！中国AI翻译耳机通话翻译，实测震撼
一个模型装下整个物种树！伯克利GPN-Star斩获基因预测双料冠军
vivo X300 Pro：以「水桶旗舰」之躯，重登旗舰山巅
直到毕业我才懂：原来延期的博士，不止我一个
让论文自己讲！Paper2Video一键生成论文讲解视频，赶顶会DDL不慌了
8美元“驯服”DeepSeek-V3.2？Training-Free GRPO把RL成本打到地板
NeurIPS 2025 | PPFN：渐进式提示融合，让红外图像增强在复杂场景下性能提升8.76%
NeurIPS 2025 | 让AIGC视频变为可探索场景：Instant4D实现单目动态场景的分钟级重建
库克抖音带货 iPhone 17 Air，22 日开售；小米客服回应「SU7 门把手」；「丐版」特斯拉明年国内投产

一张图，开启四维时空：4DNeX让动态世界「活」起来

2025-08-18机器之心来源

仅凭一张照片，能否让行人继续行走、汽车继续飞驰、云朵继续流动，并让你从任意视角自由观赏？

南洋理工大学 S-Lab 携手上海人工智能实验室，给出肯定答案 ——4DNeX。作为全球首个仅依赖单张输入即可直接输出 4D 动态场景的前馈（feed-forward）框架，4DNeX 摆脱了游戏引擎与合成数据的束缚，首次大规模利用真实世界动态影像进行训练，实现「时空视频」的高效、多视角、高保真渲染。

在多项基准测试中，4DNeX 以显著优势超越 Free4D、4Real 等当前最佳方法，真正把「一张图生成四维世界」的科幻概念带进了现实。

论文链接：https://4dnex.github.io/4DNeX.pdf
项目主页：https://4dnex.github.io/

1. 研究背景

世界模型正成为 AI 研究的高频热词。 Google DeepMind 近期迭代的 Genie 3 已能在高质量游戏数据上生成长达数分钟的交互式视频，但目前尚且缺乏在诸多真实场景上的验证。

世界模型发展的一个重要拐点在于：让模型学会刻画我们身处的动态 3D 世界，并服从其物理定律。唯有如此，生成的内容才能既逼真又可导，进而支持「反事实」推演 —— 在虚拟中重放、预测甚至改写现实。这一能力不仅可构成下一代 AR/VR 与具身智能的重要研究基石，更是迈向可信 AGI 的必经之路。

构建 4D 世界模型的关键能力，在于能否持续产出高保真、可扩展的 4D 内容，其主要在于以下三个方面的研究：

数据 – 相较于游戏等引擎合成的数据，真实采集的数据虽能保留物理属性，却难以大量获取，更难标注；
表征 - 如何兼顾不同模态（如材质和几何等）特性，设计选取高效的 3D/4D 表征仍是学界长久未竟的科研命题；
架构 – 当前的不同生成模型架构互有优劣，如何更好地继承现有模型先验，保障高质量仍需探索。

鉴于此，「真实高效」的 4D 世界模型构建非常重要，也充满挑战。

2. 4DNeX-10M Dataset 近千万帧带 4D 标注的视频集

为破解高质量真实 4D 数据稀缺的瓶颈，4DNeX 首度发布 4DNeX-10M—— 近千万帧、多场景、带伪标签的超大规模 4D 视频数据集。其覆盖室内外环境、自然景观与人体运动等多元主题，尤以海量「以人为中心」的 4D 数据为特色，囊括丰富的物理属性、动态细节与交互行为，为 4D 世界模型的构建奠定坚实基础。

^{图 1 4DNeX-10M Dataset 包含了不同来源且丰富多样的动态数据}

为支撑 4DNeX-10M 的构建，研究者们同步设计了一条全自动的数据–标注管线（见下图）。

数据源：单目实拍视频数据，其中动态场景取自 Pexels、Vimeo 等公开视频库；静态场景则整合 RealEstate-10K、DL3DV 等。
首轮清洗：基于光流一致性、亮度统计、运动强度及 OCR 文字检测，剔除低质片段。
标签制作：
内容：LLaVA-Next Video 给视频片段打标。
几何：静态场景使用 Dust3R 三维重建，动态场景使用 Monst3R / MegaSam 四维重建，输出 Semi-Dense 3D/4D 点云图、几何标签。
质量把关：联合置信度（MCV、HCPR 等）与运动平滑度等多重阈值，筛除几何漂移或动态异常序列。

最终打标完成的 4DNeX-10M 数据集构成如图右下角统计所示。

^{图 2 4DNeX-10M 构建管线以及数据统计情况}

3. 4DNeX 方法架构

表征选取

在 4D 内容生成中，传统「4D」指 3D 空间几何外加时间轴；而在世界模型的语境下，RGB 视频携带的材质、光照与语义信息同样关键。4DNeX 因而提出 6D 统一表征：以 RGB 序列刻画外观（3 维）并以 XYZ 序列编码几何（3 维）。该设计无需显式相机控制，即可同步生成多模态内容，兼顾真实感与物理一致性。