动态列表

AI半天顶博士6个月，奥特曼太激动！生化圈巨震
别再问什么工作被AI取代！Karpathy直指本质：你的工作「可验证」吗？
Karpathy最新发文：醒醒！别把AI当人看，它没欲望也不怕死
马斯克想要「杀死」氛围编程，就像FSD搞定自动驾驶
硅谷今夜笑疯！马斯克自黑「傻胖子」，只因Grok硬捧他打赢泰森
2025宝山·智能机器人产业大会暨嘉年华隆重开幕
解放军总医院联合南大、吉大等机构，共同提出首个「脊柱诊疗大模型」SpineGPT
Anthropic发现AI「破窗效应」：只是教它偷个懒，结果它学会了撒谎和搞破坏
DeepMind招募波士顿动力前CTO，哈萨比斯点赞宇树
把具身机器人开发变简单，地瓜机器人S600与一站式平台双擎亮相
华为开源突破性技术Flex:ai，AI算力效率直升30%，GPU、NPU一起用
腾讯混元数字人团队发布Moral RolePlay基准，揭秘大模型的「道德困境」
美团宣布在全国建设「骑手公寓」；2026 款苹果 iPad Air 曝光；月之暗面被曝计划明年下半年 IPO
具身智能「全明星日」来袭！智源组局30+行业掌门人，激辩机器人终极命题
1分钟跑出数百预测！WeatherNext 2把短时预报带入小时级
GPT-5得分不到0.4！法律+金融最大规模基准：1.9万+专家评估准则
AGI真来了！谷歌Nano Banana Pro实测，设计师天塌了？
2025智源具身开放日：共筑开源基石，抢占全球具身智能生态新高地
核反应堆的「第一次心跳」：初创公司实现零功率临界，研发模式迈向轻量化
SGLang Diffusion震撼发布：图像视频生成速度猛提57%！
小米汽车第 50 万辆整车下线；谷歌推出 Nana Banana Pro；华为正式推出乾崑境系列旗舰 | 极客早知道
字节这个「消失」了几年的 App，悄悄杀回苹果商城排行榜
解耦骨骼与体型，实现前所未有的动画真实感！Meta SAM 3D核心技术：开源人体参数化模型MHR
遥感变化检测，ChangeDINO来了：DINOv3驱动，IoU、F1指标全面SOTA！
「数字分身」白菜价：每月 998 元，雇一个 AI 帮你直播 8 小时
理想亮相广州车展：宣布推送全新VLA、AES辅助驾驶能力
别问树模型了！死磕结构化数据，清华团队把大模型表格理解推到极限
Meta超级智能实验室又发论文，模型混一混，性能直接SOTA
超越 VTM-RA！快手双向智能视频编码器BRHVC亮相NeurIPS2025
刚刚！腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
两院院士增选结果揭晓：周志华、刘云浩当选科学院院士
无需训练、只优化解码策略，DTS框架让大模型推理准确率提升6%，推理长度缩短23%
RoboChallenge组委会正式成立：具身智能真机评测迈入标准化共建时代
210亿美元的幻觉？奥特曼投了一家核能初创
LeCun出局，Meta变天！Llama 4翻车大清洗，「学院派」大败退
大模型上天、马斯克发射GPU？中国团队直接建「太空超算」
图像模型今夜变天？谷歌刚刚泄露了「Nano Banana Pro」这张王牌
AI顶会ICLR最严新规：滥用AI的作者和审稿人，论文一律拒稿！
谷歌Nano Banana Pro上线，深度结合Gemini 3，这下生成世界了
DeepSeek悄悄开源LPLB：用线性规划解决MoE负载不均
AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight，AIGC视频画质理解大模型
OpenAI 的「群聊」，可能比你想得更重要！
最大游戏up主也玩本地AI？让笔记本都能跑大模型的Parallax来了
并行扩散架构突破极限，实现5分钟AI视频生成，「叫板」OpenAI与谷歌？
字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新！
为什么说在 AI 时代，「想象」比「记录」更费劲？
NEX：下一代能动性模型体系与开源生态
发布即产品！SAM 3D横空出世：Meta再次颠覆3D视觉，单图即可实现高精度三维重建
很强很惊艳！Meta重磅开源SAM 3：可概念提示，统一检测、分割与追踪，性能提升2倍
本周六，围观学习NeurIPS 2025论文分享会，最后报名了
AI终于学会「读懂人心」，带飞DeepSeek R1，OpenAI o3等模型
让移动不再成为噪声：搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
SOTA集体掉线？美团AMO-Bench揭露大模型数学推理的真实段位
百万步0失误！LLM首次跑通1,048,575步长任务，不崩、不偏、不掉链
星动纪元获近10亿元A+轮融资！吉利资本领投，总订单额破5亿
刚刚，Yann LeCun官宣离职创业，瞄准高级机器智能AMI
分割一切并不够，还要3D重建一切，SAM 3D来了
杨立昆宣布离开 Meta「自立门户」；荷兰暂停干预安世半导体；TikTok 将支持用户设置减少 AI 内容
首个AI神作！一人分饰全角，万人围观外星人嘲讽人类灭绝
申研「全拒得」的「差生」，终成PyTorch之父、Meta副总裁！今天跳槽TML
图灵奖得主竟「忘了提及」中国学者成果？马库斯重锤Yann LeCun
永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术
年度最强AI实锤！谷歌Gemini 3全网首测震撼，一句话编码封王
亚马逊云科技发布Kiro正式版：核心功能升级
对话斑马口语：如何用 AI Agent 造出「超人类外教」？
清华团队“密度法则”登上Nature子刊，揭示大模型高效化发展新规律
点击下载！中国科研人员AI使用率全面领跑：Wiley发布全新调研报告
风口浪尖中的小米汽车，创下国产新势力最快盈利速度
何恺明团队再出手！将ARC视为视觉问题，ViT从零训练60.4%准确率，达到人类平均水平
CMU新作Co-Me：无需重训，VGGT长序列迎11.3倍加速！
资深技术专家胡成文出任鼎犀智创CTO，共赴新材料智创未来
如视发布空间大模型Argus1.0，支持全景图等多元输入，行业首创！
登顶开源SOTA！上交大&小红书LoopTool实现工具调用任务的「数据进化」
NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
刚刚，PyTorch之父光速入职TML！离职Meta刚过一天，投身500亿估值独角兽
何恺明重磅新作：Just image Transformers让去噪模型回归基本功
ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式
Gemini 3深夜来袭：力压GPT 5.1，大模型谷歌时代来了
「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？
Gemini 3 正式发布，多榜单断崖式领先；美安全服务商网络中断，ChatGPT、X 受牵连；苹果承认酒精擦拭可能导致手机掉色｜极客早知道
4万亿刀，仅3.6万人！英伟达揭残酷真相：劳动正与财富大脱钩
医疗AI智能体全面综述：行业爆发，年增长130%！
AI「看见」实验，哈佛颠覆性突破！一副AR眼镜，新手秒变资深专家
震惊电影圈！好莱坞混了10年没出头，他把AI「烂片」做成23万粉爆款
Anthropic CEO：最快明年，一半初级白领下岗！失业率将达10%-20%
谷歌 Gemini 3.0 深夜炸场：没有悬念的最强 AI
夸克全面接入千问对话助手，将发布全新AI浏览器
MIT何恺明团队新作：让扩散模型回归“去噪”本质，简单Transformer即可实现SOTA性能
Yann LeCun团队新作LeJEPA：仅一个超参数、50行代码，实现可证明、可扩展的自监督学习
JSON刚死24小时，TOON又被网友玩坏：LLM数据格式彻底乱套了
美团多篇论文入选NeurIPS 2025：从大模型到多模态的全线突破 | 直播预告
阿里千问公测，挑战 ChaGPT；京东上线独立外卖 App；贝佐斯出任 AI 初创公司 CEO
抱歉了GPT-5，这次是中国AI「上岸」了
你急它不急：GPT-5先判断，再决定「速答」还是「深想」
Meta开始用KPI考核，强迫所有员工尽可能多使用AI
接招吧，GPT-5.1！
「前三代定律」下，百年吸尘器如何做出新意？
两个月破 300 万用户，Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
每天给白领发 1000 万，他成了硅谷最年轻亿万富翁
2025，中国科技圈进入全面「大乱斗」时代
当 AI 开始分「左右」
阿里云，用全栈 AI 刷新第十七个双十一
AAAI 2026 Oral MiniShift+Simple3D：面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
AAAI 2026 山大提出DiveSeg：为DINO注入“水下感知力”，实例分割性能提升显著
双重隐式记忆来了！JanusVLN让视觉语言导航真正理解3D空间
让千问APP当一周科研打工人：它比我想的能干，也比我想的累
雷军连发多条微博回应质疑；iPhone 发布方式将在明年重大变革；年度最令人不安的研究：AI 刷多社媒会变蠢｜极客早知道
图灵奖得主LeCun最后警告Meta！我搞了40年AI，大模型是死路
AI又封神了！华人新作直出憨豆+《猫和老鼠》，平行宇宙对上戏了
AI「逼宫」库克？苹果秘密计划曝光，接班人竟是M芯片之父！
年度最强AI压轴！谷歌Gemini 3.0下周决战OpenAI，前端要下岗了
安谋科技发了一枚 NPU，要把 AIGC 算力提升 10 倍
ICLR 2026吃瓜现场：有人用LLM连投4版论文，竟然拿到两个8分？
无人工标注、可持续扩展：AcademicEval推动长文本评测进入“自更新”阶段
宇树完成上市辅导，拟境内IPO；传索尼开发Labubu电影；2699元！原道X小岛秀夫耳机限量发售

Meta再推WorldGen，简单一句话，竟「盖」出50×50米一座城

2025-11-22机器之心来源

Meta 用一段文本构建可探索的 3D 世界。

谷歌、OpenAI 那边一个接一个上新，整个 AI 圈都卷得飞起。

与此同时，Meta 也没闲着，先是 SAM 3、接着 SAM 3D，现在干脆直接把生成式 AI 的玩法往前踹了一大步：不光是画张图、生成一段视频，而是一句话就能生成一个能走进去的 3D 世界。

不是简简单单的场景截图，而是真・可漫游、可互动、能四处乱逛的那种。

你只需输入一句简单的提示词，比如「卡通风格的中世纪村庄」或「火星上的科幻基地站」，几分钟内就能生成一个可交互的 3D 世界。这个世界在风格和主题上是完全一致的，你的火星基地里不会出现中世纪现代建筑，你的中世纪村庄里也不会突然冒出维多利亚风格的家具。

^{中世纪村庄}

^{赛博朋克贫民窟}

同时，生成的 3D 世界还是结构合理的：不同区域之间会以可通行的方式连接，让角色可以在世界中自由漫步，而不会走着走着被卡住。

^{中世纪城镇广场，有石板路、木屋、钟楼和中央教堂。}

这就是 Meta 最新公布的一项突破性研究 WorldGen：只需一段文本提示就能生成真正可导航、可交互、可以走进去探索的完整 3D 世界。

几年前，这听上去可能像是科幻小说，但随着生成式 AI 技术的快速发展，人们已经可以根据一句文本或一张图片生成令人惊叹的短片。

WorldGen 是一个先进的端到端系统，基于程序化推理、扩散模型 3D 生成技术，以及面向对象的场景分解组合而成。生成的结果是几何结构一致、视觉效果丰富、同时渲染高效的 3D 世界，可用于游戏、仿真和沉浸式社交环境。

^{一座沙漠小镇，拥有砂岩建筑、遮荫的市场遮阳篷和狭窄的小路。}

方法介绍

现阶段，我们已经看到生成式 AI 在根据文本或图像提示生成高质量 3D 资产方面取得了巨大进展。WorldGen 将多项已有的 2D 与 3D 生成技术进行融合并创新：它首先生成 3D 场景的图像，然后再进行图像到 3D 的重建，主要包含以下阶段：

规划：程序化 blockout 生成、导航网格提取、参考图像生成；
重建：图像到 3D 的基础模型、基于导航网格的场景生成、初始场景纹理生成；
分解：使用加速版 AutoPartGen 进行场景部件提取、场景分解数据整理；
精修：图像增强、网格 - 精修模型、纹理生成模型。

其他已有的方法虽然也能从图像或文本提示生成可交互的三维世界，但它们通常从单一指定的视角出发向外扩展，而不是基于全局参考图像或完整布局进行生成。

这样的方式意味着：在中心视角附近，几何结构和纹理质量尚可，但一旦你向外移动 3 到 5 米，质量就会迅速下降。

相比之下，WorldGen 能够生成覆盖 50 x 50 米的完整纹理化场景，并在整个区域中保持风格与几何的一致性。

未来，Meta 还计划支持更大规模的世界生成。

^{古代寺庙群，以红塔式建筑为特色，有层叠的屋顶、石阶和庭院。}

Meta 表示，这项工作目前仍处于研究阶段，尚未对开发者开放，但 WorldGen 生成的内容已经可以直接兼容 Unity、Unreal 等主流游戏引擎，无需额外的转换流程或渲染流程。

不过，Meta 也强调，尽管 WorldGen 在生成多样化、可交互、可导航的世界方面取得了重要进展，但当前模型仍存在一些改进的地方。例如，未来版本将支持更大空间规模，并降低生成延迟。

在传统工作流中，三维内容的制作往往既复杂又耗时，对许多人来说甚至难以踏入。WorldGen 的出现让情况开始发生变化，它展示了跨行业节省时间和成本的巨大潜力，并让普通人也有机会参与到 3D 世界构建中来，推动内容创作真正走向大众化。这也呼应了 Meta 在 Connect 大会上描绘的愿景：未来，每个人都能在无需编写任何代码的情况下，从一个简单的文字提示开始，创造出属于自己的完整虚拟世界。

^{一个以万圣节为主题的村庄，有歪斜的黑色屋顶房屋、发光的窗户、南瓜和扭曲的树。}

与此同时，Meta 还放出了相关论文，感兴趣的读者可以阅读论文，了解更多内容：

论文标题：WorldGen: From Text to Traversable and Interactive 3D Worlds
论文地址：https://scontent-sea1-1.xx.fbcdn.net/v/t39.2365-6/586830145_834419405978070_3937417229378696315_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=d65b48&_nc_ohc=KjIRxfgDxfAQ7kNvwEUbcRV&_nc_oc=AdkyeBfeCoX5Y2sIxaeN_wzTJOo3BvhPhYFDsCuN2XdGW60PPHW5-cPauGTZ7kjcmN6LymJ7ZXAcfyjoy5mlGra1&_nc_zt=14&_nc_ht=scontent-sea1-1.xx&_nc_gid=3tX278lz5_LpF7k9qDsxvQ&oh=00_Afjv87PRMbBTzjkRBOHUekl_YD8a0iIEvaJu8RrnvKr7vg&oe=6926DA80

与其他新兴技术的对比：WorldGen 的优势

前段时间，斯坦福大学教授李飞飞的创业公司 World Labs 推出了 Marble ，该系统使用的是 Gaussian Splatting 技术，能实现高度写实的视觉效果。虽然画面非常逼真，但这类基于 splat 的场景存在一个明显短板：一旦摄像机从中心视角稍微移动，仅仅 3 到 5 米，图像质量就会迅速下降。

相比之下，Meta 选择以网格（mesh）为基础输出几何结构，使 WorldGen 成为一个真正面向功能开发的工具，而不仅是用于渲染视觉内容。这种结构原生支持物理模拟、碰撞检测和导航，对于任何交互式软件而言，这些功能都是不可或缺的。也因此，WorldGen 能生成面积达到 50×50 米的完整场景，并且在整个区域内保持几何的一致性与完整性。

对技术或创意领域的从业者来说，WorldGen 的出现意味着 3D 工作流程将迎来新的可能性。

与此同时，技术美术和关卡设计师的工作方式也将发生转变，从手动摆放每一个顶点，转向使用提示词驱动 AI 并对其输出进行筛选与编辑。

当然，尽管 WorldGen 输出的场景可以无缝接入现有游戏引擎（如 Unity 和 Unreal），但生成过程本身对算力的需求依然很高。因此，开发者也需评估本地渲染和云端渲染的能力，以决定最合适的部署方式。

^{参考链接：}

^{https://www.meta.com/blog/worldgen-3d-world-generation-reality-labs-generative-ai-research/}

^{https://www.artificialintelligence-news.com/news/worldgen-meta-generative-ai-for-interactive-3d-worlds/}

]]>

动态列表

Meta再推WorldGen，简单一句话，竟「盖」出50×50米一座城

类别

资源

联系我们