动态列表

  • 刚刚,Gemini「灵魂人物」官宣加盟xAI!马斯克火速转推背书
  • 靠10万+粉丝,北漂插画师秒贷款!华为全栈AI加速,让银行及时看见
  • 醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相
  • 哈佛大佬都哭了!H-1B签证飙至10万刀,微软谷歌连夜召回全球员工
  • 马斯克xAI百天血战,100天狂招100人!联创实权被削,豪言干掉微软
  • 全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
  • 谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走,马斯克直呼:起飞
  • 集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
  • 告别视频“抽帧”理解,美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
  • 【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
  • iPhone17 卖爆,官网发货延至双 11;比亚迪仰望 U9 赛道版开启预定;网友玩坏 iPhone「舌头刷抖音」
  • 「逆龄大脑药」首次人体试验!奥特曼押注RTR242,返老还童将要成真?
  • 终结CMU霸权,清华首次登顶CSRankings世界第一!北大AI领域夺冠
  • 大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升
  • OpenAI最新硬件2026年底亮相!狂挖苹果20+老将,首款神秘设备或将颠覆iPhone
  • 小扎AI眼镜当场死机,CTO自曝灾难级演示内幕:一个指令干趴自家服务器
  • 当大厂「卷」Agent,腾讯选择「下产线」
  • 陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型,性能登顶行业基准
  • OpenAI从苹果挖了20多人搞硬件,知情人士:苹果创新缓慢、官僚主义令人厌倦
  • Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
  • TPAMI 2025 | DiffMVS/CasDiffMVS:一种置信度感知的扩散模型,实现轻量且准确的多视图立体三维重建
  • 北大等提出BEVUDA++,首次解决BEV感知跨域难题,夜间检测性能提升12.9%
  • iPhone 17 Pro 首日即现划痕;传 OpenAI 联手立讯做 AI 硬件;2025 年搞笑诺贝尔出炉
  • 史上最大升级!7亿周活ChatGPT逼宫,谷歌慌了,这次要把AI整个塞进Chrome
  • 谷歌AI或摘千禧年大奖!华人博士破解百年数学难题,首次捕获奇点
  • 登顶多模态推理榜MMMU!UCSD新方法超越GPT-5、Gemini
  • DeepSeek-R1登顶Nature,8位专家严审通过, 大模型「交卷时刻」来了
  • 18岁天才少年,登上Nature封面!
  • 扩散大语言模型也能飞?DPad免训练加速61倍,全局规划照样稳
  • 北京内推 | 腾讯混元大模型X团队招聘大模型/强化学习方向“青云计划”实习生
  • ICML 2025 | 乱写Prompt更给力?删几个Token,上下文学习立刻“反向觉醒”
  • 不要ViT也不要扩散!OneCAT甩掉编码器,统一多模态自回归模型来了
  • 华为超节点:用「一台机器」的逻辑,驱动AI万卡集群
  • 5555被拒稿,AC接收但PC强拒,NeurIPS揭榜引争议
  • 超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
  • 攻克大模型训推差异难题,蚂蚁开源新一代推理模型Ring-flash-2.0
  • 给大模型「精准手术」:美团智能客服提出逆向学习技术精准纠偏,风险控制提升38%
  • Meta新作SyncSeal:用深度学习“封印”同步信息,让数字水印不再怕裁剪和旋转
  • 阿联酋大学CVLab IEEE Fellow团队招收2026春季/秋季全奖博士生
  • 千禧年大奖难题有望突破?AI为流体动力学提供新思路
  • 生物学迎来「ChatGPT时刻」:Evo构建首个AI生成的「基因组」,开启生成式基因设计时代
  • 英伟达50亿美元入股英特尔,将发布CPU+GPU合体芯片,大结局来了?
  • 理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA
  • 投50亿美元,英伟达联手英特尔;谷歌将Gemini加入浏览器;网约车司机平均月入过万
  • GPT-5攻入数学圈,证明定理快过博士生?网友热议AI新角色
  • 阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
  • ChatGPT负责人深度复盘,爆4o复活内幕!过快下线是失误,将迭代模型人格
  • 全球首个AI基因组诞生,35亿年生命代码重编程!生物学迎「ChatGPT时刻」
  • 芯片大地震,黄仁勋355亿入股!英特尔要为老黄造CPU,股价狂飙30%
  • 新思科技中国30周年,引领AI智能体工程师重塑芯片设计范式
  • 科大讯飞发布面向东盟的多语言大模型及系列产品,布局中国—东盟AI生态大未来
  • Nature | 20年后你会患上哪些疾病?AI准确预测超1000种疾病患病风险,助力预防
  • 我们还是低估了英伟达
  • 北京内推 | 字节跳动国际电商团队招聘大模型方向算法实习生
  • 少样本不够看?给LLM装上“学习引擎”,上下文学习迈入千样本时代
  • ICCV 2025 | Gap即力量!挖掘模态间隔潜力,MG-CLIP实现持续学习SOTA
  • 谁在拖慢你的RL?别怪显卡,错的可能是你的PG-loss
  • OneSearch,揭开快手电商搜索「一步到位」的秘技
  • 17.38 万的大六座 SUV,吉利用银河 M9 敲碎了友商的心
  • 刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
  • 从一个公众号智能体说起:好用的Agent,究竟需要什么?
  • B站出海的强有力支柱:最新开源文本转语音模型IndexTTS-2.0标志零样本TTS进入双维度时代
  • 腾讯企点营销云发布Magic Agent,营销工具全面AI化
  • 带屏 AI 眼镜登场!Meta「眼镜全家桶」炸街了
  • 通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
  • 让机器人「不只是走路」,Nav-R1引领带推理的导航新时代
  • 刚刚,DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
  • 腾讯 AI 的新叙事
  • 传小米 YU7 新车型曝光纽北;李飞飞放出 3D AI 新成果; 49.2%,火山引擎大模型调用份额占半壁江山
  • 小扎豪掷143亿,却换不来AI燃料!数据之争下半场,中国冲出一匹黑马
  • 终结数据荒!智源开源首个Deep Research数据合成框架InfoSeek
  • 我用一张照片,生成了一个能走进去的世界
  • 奥特曼爆料:GPT-5重构彻底一切!一人顶五个团队
  • 最新实测GPT-5-Codex:前端能力碾压,复杂项目轻松搞定,Claude可以扔了!
  • TPAMI 2025 | 弱监督与自监督引领自动驾驶运动预测新范式,用场景分割“脑补”运动,仅需0.01%标注,性能媲美监督方法
  • 南开大学等提出RAM++:从关注“降质”到关注“内容”,实现鲁棒的全能图像恢复
  • 不改参数不重训!CARVE一招纠偏,对比注意力让视觉模型精准聚焦
  • ICML 2025 | AI福尔摩斯来了!LLaVA-ReID多轮发问,行人重识别一步步锁定
  • 博士申请 | 新加坡国立大学CoSTA Lab招收人工智能全奖博士/RA/实习生
  • 清华新作颠覆CoT!ParaThinker并行思考,终结单链推理天花板
  • 没想到,音频大模型开源最彻底的,居然是小红书
  • 6.1B打平40B Dense模型,蚂蚁开源最新MoE模型Ling-flash-2.0
  • 「AI助手」真来了?谷歌牵头推进Agent支付协议AP2
  • 腾讯AI Lab首创RL框架Parallel-R1,教大模型学会「并行思维」
  • 阿里开源通义DeepResearch,性能超OpenAI、DeepSeek旗舰模型
  • 华为发布4+10+N中小企业智能化方案,打通迈向智能世界「最后一公里」
  • LLM开源2.0大洗牌:60个出局,39个上桌,AI Coding疯魔,TensorFlow已死
  • Cell丨谷歌AI co-scientist联合帝国理工揭开谜团:提出并验证细菌基因转移机制假说
  • 华为首款旅行车 1 小时订单破 5000,余承东再次「封神」?
  • 腾讯、复旦、上海创智学院提出SwiftVideo:首个Continuous-time视频蒸馏加速框架,实现业界最快最高清视频生成
  • 刚刚,李飞飞空间智能新成果震撼问世!3D世界生成进入「无限探索」时代
  • 突破单链思考上限,清华团队提出原生「并行思考」scale范式
  • 刘强东喊话王兴:尊重兴哥,不应是仇人;美机器人公司估值暴涨至390亿美元;iOS 微信支持聊天发实况图|极客早知道
  • 7亿人每周狂发180亿条消息!OpenAI首次揭秘ChatGPT最火用途
  • LLM会梦到AI智能体吗?不,是睡着了也要加班
  • 一周休4天!老黄、盖茨站台,网友炸锅:是AI福利,还是裁员信号?
  • AI精神病爆发!沉迷ChatGPT把人「宠」出病,KCL心理学家实锤
  • 谷歌DeepMind「粪坑淘金」全新方法,暗网毒数据也能训出善良模型
  • EMNLP 2025 | 跨风格不误判!MoSEs用职业写作风格建模,检测AI文本更稳更准
  • 北京内推 | 微软Copilot算法团队招聘大模型推理方向研究型实习生
  • 一招打破瓶颈!HyperTree超树规划:AI掌握层级化推理,复杂任务全面突破
  • 高阶程序,让AI从技术可行到商业可信的最后一公里
  • 网络顶会获奖!华为提出端网协同RDMA传输架构,解决大规模AI集群网络可扩展性问题
  • 具身智能能力狂飙,安全却严重滞后?首个安全可信EAI框架与路线图出炉!
  • 在端侧 AI 时代正式到来之前,联想想先做好硬件「杀手锏」
  • 火山引擎发布PromptPilot,推动大模型应用高效落地
  • 在「外滩大会·具身智能:从泛化到行动,重塑产业未来」上,这些大牛都说了什么?
  • 国内首个!夸克公开覆盖全阶段医师考试的健康大模型测试集
  • 蚂蚁百灵开源轻量级MoE语言模型Ling-mini-2.0,1.4B激活性能比肩大规模模型
  • 浙大侯廷军团队联合IIT等发布系统综述:全景解析机器学习加持下的「增强采样」方法
  • BMVC 2025 | 无需源数据,Grad-CL如何利用梯度引导实现精准的眼底图像分割?
  • 斯坦福大学提出PSI:一种通过概率结构集成,从数据中学习可控、可灵活提示的世界模型的新系统
  • 谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
  • 从少样本到千样本!MachineLearningLM给大模型上下文学习装上「机器学习引擎」
  • 最新披露,骑手收入真实情况揭晓
  • 刚刚,OpenAI发布GPT-5-Codex:可独立工作超7小时,还能审查、重构大型项目
  • 多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一
  • 15年大佬深夜痛哭半小时!氛围编程巨坑曝光,95%程序员沦为「AI保姆」
  • 面试不是考试,是表演!新晋OpenAI员工:重磅揭秘顶级AI岗通关密码
  • GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭
  • 反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假
  • 新世界首富:斥巨资求永生,TikTok收购案最可能买家,得OpenAI千亿订单
  • 博士申请 | 南京大学范琦老师课题组招收26级/27级视频生成/世界模型方向博士生
  • 北京/杭州/西雅图内推 | 阿里通义实验室LLM Research团队招聘大模型研究科学家
  • EMNLP 2025 | LLM也会“装成人”?对比重写CoPA挑战AI文本检测可信度
  • 从Muon到AdaMuon:下一代优化器能否真正取代Adam?
  • 法天使与零一万物发布法务智能体平台,让AI成为法务部的超级员工
  • 从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了
  • 数字生活的原生入口:蚂蚁集团发布AI眼镜全新技术框架gPass
  • OpenVision 2:大道至简的生成式预训练视觉编码器
  • 旗舰手机、AI 拍摄眼镜、Flyme ,魅族 22 「归航」终极生态
  • DeepMind与牛津大学提出LayerLock:用渐进式层冻结实现高效、无崩溃的自监督视觉表征学习
  • 超越GPT-4o,蚂蚁集团与南洋理工大学提出LaV-CoT:首个语言感知的视觉思维链
  • 为什么说现在所有的 AI Agent,都像 3D 打印机?|AI 上新
  • 召回率达99%,牛津大学等开发AI工具助天文学家快准识别超新星,从亿万星海中秒抓宇宙烟火
  • 用光学生成图像,几乎0耗电,浙大校友一作研究登Nature
  • 告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
  • 现货来了!火出圈!钉钉首款AI硬件DingTalk A1正式开售
  • 苹果 iOS 26 今日发布,8 大更新;华为小米宇树入选 MIT「聪明公司 50」;中国核电催更《流浪地球 3》

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

图片

本文的作者来自网易、香港城市大学、北京航空航天大学和清华大学等机构。本文的共同第一作者为网易互娱段颖琳、北京航空航天大学邹征夏、网易互娱谷统伟。本文的通讯作者为香港城市大学邱爽、网易互娱陈康。

图片
  • 论文题目:LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation

  • 文章链接:https://arxiv.org/pdf/2509.05263

构建一个工业级高仿真 3D 虚拟世界,需要投入多少时间与人力?如果仅需一段描述、一张草图,AI 便可快速自动生成 —— 你相信吗?

这并非科幻!最新论文提出的 LatticeWorld 框架让「指令直达场景」。该方法将大语言模型与工业级 3D 渲染引擎虚幻引擎 5(Unreal Engine 5,UE5)无缝融合,打通工业级程序化内容生成(PCG)管线,实现让虚拟世界「一句话成真」。创作效率提升 90 倍,为 3D 世界构建带来了革命性的突破。

在具身智能、自动驾驶、游戏开发和影视制作等领域,高质量的 3D 世界构建具有重大意义。

在具身智能和自动驾驶中,高质量的 3D 虚拟世界可作为仿真与算法训练的关键基础设施;在游戏与影视领域,高质量 3D 世界可支撑逼真与沉浸体验。然而,传统的 3D 场景制作主要依赖艺术家手工建模,不仅成本高昂、耗时巨大,还难以快速响应多样化的创作需求。

随着生成式 AI 的快速发展,自动化的 3D 世界生成逐渐成为可能,为行业提供了新的解决思路。然而,现有方法存在显著局限:基于神经渲染的方法缺乏交互能力,限制了实际应用;基于扩散模型的视觉生成方案虽能创建内容,但依赖大量视频训练数据,在复杂物理仿真与多智能体交互场景中仍有待进一步发展。

对此,另一类研究尝试将生成式模型与 3D 建模平台相集成,其中以 Blender 平台尤为常见。不过,Blender 在实时交互的支持和高保真的物理仿真方面原生能力依然有限,不能很好的满足工业级 3D 世界建模的现实需求。

为解决上述难题,研究团队提出了一个高效的多模态 3D 世界生成框架 LatticeWorld。该框架巧妙地将轻量级大语言模型(LLaMA-2-7B)与工业级渲染引擎(如 UE5)相结合,支持文本描述和视觉指令的多模态输入,能够生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界,并高效支持多智能体交互。相比传统手工化的工业流程,LatticeWorld 在保持高创作质量的同时,创作效率提升超过 90 倍,为 3D 世界构建带来了革命性的突破。 

图片

LatticeWorld 框架介绍

LatticeWorld 框架的核心思想是采用大语言模型处理场景布局和环境配置的生成,并构建多模态输入融合机制,可同时接收文本描述和视觉条件(如高度图或对应的草图)作为模型输入生成结构化的中间结果 (包括场景布局JSON 格式的场景与智能体参数),进一步通过定制的解码和转译流程中间结果映射为渲染引擎可理解的输入形式,最终由渲染引擎生成为可交互、可定制化的 3D 虚拟世界。

具体而言,本研究提出的 LatticeWorld 框架通过三个核心组件模块实现从自然语言描述与草图到完整 3D 场景的端到端生成:场景布局生成模块、环境配置生成模块、程序化渲染管线模块。

图片

1.   场景布局生成

LatticeWorld 将场景布局生成问题建模为

图片

其中图片为布局生成大语言模型,图片代表布局描述文本输入,图片表示视觉输入信息,如本文中的地形高度图等,图片为视觉到语言的映射,而图片为本论文中创新性提出的符号序列场景布局表示。其中,图片中还包含了特定的系统提示词,描述符号化布局中不同符号的含义。此外,值得注意的是,借助已有方法,地形高度图图片可通过简单的手绘草图直接生成,显著降低视觉输入的复杂度并提升框架的可用性。

符号序列场景布局表示:本文创新性地设计了一种场景布局中间表示方案。首先将复杂的空间场景布局转换为图片(文中图片设为 32) 的符号矩阵:每个符号精确代表特定的资产类型,例如 F 表示森林区域,W 表示水体,B 表示建筑物,R 表示道路网络等。随后,这种符号化矩阵被序列化为大语言模型可直接处理的字符串格式:

图片

其中图片代表符号矩阵的第 i 行第 j 列个元素,而 \n 代表换行符。这种方式有效保持了空间关系的完整性,同时又可使纯文本基础模型能够理解和生成复杂的二维空间布局。

多模态视觉融合机制:针对具有高度变化的复杂地形场景,本文训练了视觉指令集成模块。该框架利用预训练的 CLIP 视觉编码器图片提取高维视觉特征表示,随后通过专门设计的多层 CNN 投影网络 Proj 将这些特征映射到 图片 的词嵌入空间:

图片

论文采用精心设计的三阶段训练范式:(1) CLIP 微调阶段。专门针对地形理解任务对图片进行微调;(2) 持续预训练阶段。在保持图片和 CLIP 权重冻结的条件下进行 Proj 的训练;(3) 端到端微调阶段。构建相应的多模态数据集,每个样本包含视觉信息(高度图)、布局文本描述与符号化场景布局。在此基础上,采用交叉熵损失,联合优化 Proj 模块和图片,其中图片使用轻量级大语言模型 LLaMA-2-7B。

2. 环境配置生成

基于已生成的场景布局图片,视觉输入信息图片,以及环境配置的文本描述图片,该方法进一步构建了环境配置生成模型图片,并生成环境配置参数图片

图片

该模型能够生成关于场景内容的两方面配置:(1)场景属性,(2)智能体参数,该两方面配置则以 JSON 数据格式的来表达。针对图片的训练,该方法构建相应数据集,每个数据样本包含视觉信息(高度图)、环境配置文本描述、场景布局以及对应的环境配置,并在此基础上使用交叉熵损失函数对轻量级大语言模型 LLaMA-2-7B 进行微调,最终得到图片

层次化场景属性框架:该方法建立了双层场景属性的层次化结构来精确建模场景特征。其中,粗粒度属性层控制全局环境特征,包括地形类型、季节变化、天气状况、时间设定和艺术风格等宏观参数。细粒度属性层则涵盖多种细节参数,如资产的材质、密度、位置、朝向等。这些细粒度参数的具体表现又会受到粗粒度属性的约束和影响,确保场景的语义一致性并有效减少复杂环境中的参数冲突。

智能体参数生成:该框架能够生成动态智能体配置信息,包括智能体类别分类 (人形机器人、机器狗、动物等)、数量、行为状态 (静止、移动等) 和空间位置等。这些参数生成受到场景属性约束和视觉条件限制,确保智能体的正确布置,例如水生动物仅出现在水体区域。

3. 程序化渲染管线

在生成得到符号化场景布局和环境配置后,该方法通过特定的渲染过程

图片

来最终得到虚拟的 3D 世界图片。其中,Render 为特定的 3D 渲染引擎,本文采用工业级渲染引擎 UE5。图片图片 分别作为场景布局的解码器和环境配置的转译系统,将符号化场景布局和 JSON 格式的环境配置转换为 3D 渲染引擎的输入。

场景布局解码器图片实现对生成的符号化场景布局进行精确处理:(1) 将图片符号化场景布局转换为各场景类型的降采样二值掩码图片;(2) 调整掩码图像以达到特定的场景大小并通过边缘平滑技术形成不同类型场景内容的自然过渡区域;(3) 输出渲染引擎直接可读的对应多场景类型的多通道灰度图像。

环境配置转译系统图片负责将 JSON 格式的环境配置参数转译为特定渲染引擎的原生属性格式,精确控制物体和智能体的类型、状态、空间分布等详细参数。图片通过编写转换脚本或借助以 Houdini 等软件为基础开发的专业插件来实现转译流程的自动化。

4. 数据集构建

论文中构建了两个高质量的数据集来进行模型训练:(1)LoveDA,包含 8,236 个精心标注的郊区场景实例,通过对开源数据集 LoveDA 进行处理和增强后得到。该数据集的场景设定为固定高度。(2)Wild,包含 24,380 个多样化的荒野地形实例,通过采集卫星地图数据进行处理并增强后得到。该数据集的场景设定为可变高度,因此包含高度图和对应的草图。

在以上两个数据集中,首先分别构建每个卫星图片样本的场景布局和对应的符号化场景布局,同时生成相应的高度图和草图。随后进行数据增强,包括对每个样本中的图片和对应的符号化场景布局进行多次旋转等,以提升训练所得模型的鲁棒性。进一步,通过 GPT-4o 对布局图片进行文字标注,结合精心设计提示词工程,GPT‑4o 能够提供场景和资产的有效的空间关系与分布描述。对于高度图,同样利用 GPT‑4o 生成关于地形起伏变化及其方向的描述。最终得到了对应的场景布局数据集用以训练图片图片

进一步,构造环境配置数据集以训练图片。本文对应的提出一种分层框架,构造 LoveDA 和 Wild 环境配置样本。首先用 GPT‑4o 为布局图与高度图生成文字描述。然后采用部分随机采样(针对某些场景无关的配置)与结构化提示词工程相结合的方式生成 JSON 格式的环境配置(含场景属性与智能体参数)。最后,采用基于特定规则的提示词,将环境配置与场景布局以及高度图的描述融合,指导 GPT‑4o 生成完整的环境配置文本描述。

实验对比

1. 基于多模态指令的场景布局生成

文中将 LatticeWorld 与 GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1 和 Qwen2-VL-Max 等模型进行对比,在固定高度条件(仅文本描述)和可变高度条件(草图所对应转化成的高度图的视觉信号)下测试文本到布局的生成能力。结果显示 LatticeWorld 在生成准确布局方面表现更优。

图片

2. 环境生成能力评估

下面的表格展示了 LatticeWorld 在不同多模态布局指令下的场景生成能力,通过 $$32\times 32$$ 的符号矩阵编码空间关系,结合文本和视觉输入进行场景生成,所有布局均在 UE5 中渲染。

图片

3. 场景属性生成验证

在该实验中,固定场景布局并输入不同的环境描述,验证了 LatticeWorld 支持多样化的自然环境生成,并能够有效地依据文本描述调整整个场景的环境属性。

图片

4. 生成动态交互式智能体环境

表格展示了基于 LatticeWorld 构建多智能体交互环境的能力。LatticeWorld 支持通过文本描述生成智能体参数配置(类型、数量、分布、行为等)。生成的 3D 世界中可预置了基于预定义规则的自主对抗行为,如在接近时进行追逐和攻击。

图片

5. LatticeWorld 与专业艺术家对比

使用相同的布局和参数指令,对比专业艺术家手工创作和 LatticeWorld 生成的环境。工作量对比显示,LatticeWorld 将总制作时间从 55 天(手工)降低到不到 0.6 天,效率提升超过 90 倍,在生成多个环境时优势更加明显。

图片

下方表格展示了两者在构建场景的效果上的对比,可见 LatticeWorld 保证了极高的生成质量。

图片

未来展望

未来该框架可继续扩展研究的方向包括:(1) 设计更多样化的对抗智能体行为策略,提升交互的丰富性;(2) 支持多玩家控制和 AI 算法策略;(3) 实现主智能体身体部位的精细化独立控制;(4) 扩充资产库,增加更多对象和交互元素以生成更加多样的虚拟世界。

]]>

联系我们