动态列表

  • AI半天顶博士6个月,奥特曼太激动!生化圈巨震
  • 别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?
  • Karpathy最新发文:醒醒!别把AI当人看,它没欲望也不怕死
  • 马斯克想要「杀死」氛围编程,就像FSD搞定自动驾驶
  • 硅谷今夜笑疯!马斯克自黑「傻胖子」,只因Grok硬捧他打赢泰森
  • 2025宝山·智能机器人产业大会暨嘉年华隆重开幕
  • 解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT
  • Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
  • DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
  • 把具身机器人开发变简单,地瓜机器人S600与一站式平台双擎亮相
  • 华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用
  • 腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
  • 美团宣布在全国建设「骑手公寓」;2026 款苹果 iPad Air 曝光;月之暗面被曝计划明年下半年 IPO
  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售

Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城

Meta 用一段文本构建可探索的 3D 世界。

谷歌、OpenAI 那边一个接一个上新,整个 AI 圈都卷得飞起。

与此同时,Meta 也没闲着,先是 SAM 3、接着 SAM 3D,现在干脆直接把生成式 AI 的玩法往前踹了一大步:不光是画张图、生成一段视频,而是一句话就能生成一个能走进去的 3D 世界。

不是简简单单的场景截图,而是真・可漫游、可互动、能四处乱逛的那种。

你只需输入一句简单的提示词,比如「卡通风格的中世纪村庄」或「火星上的科幻基地站」,几分钟内就能生成一个可交互的 3D 世界。这个世界在风格和主题上是完全一致的,你的火星基地里不会出现中世纪现代建筑,你的中世纪村庄里也不会突然冒出维多利亚风格的家具。

图片

                中世纪村庄

图片

                赛博朋克贫民窟

同时,生成的 3D 世界还是结构合理的:不同区域之间会以可通行的方式连接,让角色可以在世界中自由漫步,而不会走着走着被卡住。

图片
图片

                中世纪城镇广场,有石板路、木屋、钟楼和中央教堂。

这就是 Meta 最新公布的一项突破性研究 WorldGen:只需一段文本提示就能生成真正可导航、可交互、可以走进去探索的完整 3D 世界。

几年前,这听上去可能像是科幻小说,但随着生成式 AI 技术的快速发展,人们已经可以根据一句文本或一张图片生成令人惊叹的短片。

WorldGen 是一个先进的端到端系统,基于程序化推理、扩散模型 3D 生成技术,以及面向对象的场景分解组合而成。生成的结果是几何结构一致、视觉效果丰富、同时渲染高效的 3D 世界,可用于游戏、仿真和沉浸式社交环境。

图片
图片

                 一座沙漠小镇,拥有砂岩建筑、遮荫的市场遮阳篷和狭窄的小路。

方法介绍

现阶段,我们已经看到生成式 AI 在根据文本或图像提示生成高质量 3D 资产方面取得了巨大进展。WorldGen 将多项已有的 2D 与 3D 生成技术进行融合并创新:它首先生成 3D 场景的图像,然后再进行图像到 3D 的重建,主要包含以下阶段:

  • 规划:程序化 blockout 生成、导航网格提取、参考图像生成;

  • 重建:图像到 3D 的基础模型、基于导航网格的场景生成、初始场景纹理生成;

  • 分解:使用加速版 AutoPartGen 进行场景部件提取、场景分解数据整理;

  • 精修:图像增强、网格 - 精修模型、纹理生成模型。

其他已有的方法虽然也能从图像或文本提示生成可交互的三维世界,但它们通常从单一指定的视角出发向外扩展,而不是基于全局参考图像或完整布局进行生成。

这样的方式意味着:在中心视角附近,几何结构和纹理质量尚可,但一旦你向外移动 3 到 5 米,质量就会迅速下降。

相比之下,WorldGen 能够生成覆盖 50 x 50 米的完整纹理化场景,并在整个区域中保持风格与几何的一致性。

未来,Meta 还计划支持更大规模的世界生成。

图片

                古代寺庙群,以红塔式建筑为特色,有层叠的屋顶、石阶和庭院。

Meta 表示,这项工作目前仍处于研究阶段,尚未对开发者开放,但 WorldGen 生成的内容已经可以直接兼容 Unity、Unreal 等主流游戏引擎,无需额外的转换流程或渲染流程。

不过,Meta 也强调,尽管 WorldGen 在生成多样化、可交互、可导航的世界方面取得了重要进展,但当前模型仍存在一些改进的地方。例如,未来版本将支持更大空间规模,并降低生成延迟。

在传统工作流中,三维内容的制作往往既复杂又耗时,对许多人来说甚至难以踏入。WorldGen 的出现让情况开始发生变化,它展示了跨行业节省时间和成本的巨大潜力,并让普通人也有机会参与到 3D 世界构建中来,推动内容创作真正走向大众化。这也呼应了 Meta 在 Connect 大会上描绘的愿景:未来,每个人都能在无需编写任何代码的情况下,从一个简单的文字提示开始,创造出属于自己的完整虚拟世界。

图片

                一个以万圣节为主题的村庄,有歪斜的黑色屋顶房屋、发光的窗户、南瓜和扭曲的树。

与此同时,Meta 还放出了相关论文,感兴趣的读者可以阅读论文,了解更多内容:

图片
  • 论文标题:WorldGen: From Text to Traversable and Interactive 3D Worlds

  • 论文地址:https://scontent-sea1-1.xx.fbcdn.net/v/t39.2365-6/586830145_834419405978070_3937417229378696315_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=d65b48&_nc_ohc=KjIRxfgDxfAQ7kNvwEUbcRV&_nc_oc=AdkyeBfeCoX5Y2sIxaeN_wzTJOo3BvhPhYFDsCuN2XdGW60PPHW5-cPauGTZ7kjcmN6LymJ7ZXAcfyjoy5mlGra1&_nc_zt=14&_nc_ht=scontent-sea1-1.xx&_nc_gid=3tX278lz5_LpF7k9qDsxvQ&oh=00_Afjv87PRMbBTzjkRBOHUekl_YD8a0iIEvaJu8RrnvKr7vg&oe=6926DA80

与其他新兴技术的对比:WorldGen 的优势

前段时间,斯坦福大学教授李飞飞的创业公司 World Labs 推出了 Marble ,该系统使用的是 Gaussian Splatting 技术,能实现高度写实的视觉效果。虽然画面非常逼真,但这类基于 splat 的场景存在一个明显短板:一旦摄像机从中心视角稍微移动,仅仅 3 到 5 米,图像质量就会迅速下降。

相比之下,Meta 选择以网格(mesh)为基础输出几何结构,使 WorldGen 成为一个真正面向功能开发的工具,而不仅是用于渲染视觉内容。这种结构原生支持物理模拟、碰撞检测和导航,对于任何交互式软件而言,这些功能都是不可或缺的。也因此,WorldGen 能生成面积达到 50×50 米的完整场景,并且在整个区域内保持几何的一致性与完整性。

对技术或创意领域的从业者来说,WorldGen 的出现意味着 3D 工作流程将迎来新的可能性。

与此同时,技术美术和关卡设计师的工作方式也将发生转变,从手动摆放每一个顶点,转向使用提示词驱动 AI 并对其输出进行筛选与编辑。

当然,尽管 WorldGen 输出的场景可以无缝接入现有游戏引擎(如 Unity 和 Unreal),但生成过程本身对算力的需求依然很高。因此,开发者也需评估本地渲染和云端渲染的能力,以决定最合适的部署方式。

参考链接:

https://www.meta.com/blog/worldgen-3d-world-generation-reality-labs-generative-ai-research/

https://www.artificialintelligence-news.com/news/worldgen-meta-generative-ai-for-interactive-3d-worlds/

]]>

联系我们