动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!

近来,世界模型(World Model)很火。多个 AI 实验室纷纷展示出令人惊艳的 Demo:仅凭一张图片甚至一段文字,就能生成一个可交互、可探索的 3D 世界。这些演示当然很是炫酷,它们展现了 AI 强大的生成能力。

但一个关键问题随之而来:这些由 AI 生成的世界中,绝大部分事物都是模型想象和虚构的。

如果我们不满足于「创造」一个虚拟世界,而是想把我们当下生活的这个真实世界(比如我们的家、办公室、工厂和城市)完整地变成一个可交互、可计算的 3D 世界呢?

这正是如视(Realsee)想要解答的问题。11 月 13 日,如视,这家数字空间及空间智能综合解决方案引领者,正式发布了其空间大模型 Argus 1.0,这也是全球首个(目前也是唯一一个)支持全景图输入,推测空间深度的大模型。它所代表的正是与虚拟生成截然不同的另一条路径:真实复刻。而这背后,正是「空间智能」相关技术不断演进的结果。

Argus 1.0 的目标不是「虚构」世界,而是「还原」真实的世界。它能够以毫秒级的速度,从一个场景下的单张或多张全景/普通图像中,推理出所有图像带绝对尺度的相机位姿、深度图和点图。

图片

体验地址:https://h5.realsee.cn/argus?UTM=articlejqzx

从想象到测量,从虚拟到真实,Argus 1.0 的出现为 2D 图像通向 3D 真实空间架起了一座高速桥梁。这一技术突破意味着什么?它背后是如视怎样的技术积累与战略布局?

带着这些问题,我们与如视副总裁、首席科学家潘慈辉博士进行了深入对话,试图解码 Argus 模型的技术特性,及其在如视「空间智能」版图中的关键角色。

Argus 1.0 诞生的基石  如视的「数字空间-算法-行业应用」飞轮

任何强大模型的诞生都不是空中楼阁,Argus 1.0 也不例外。它根植于如视自 2017 年成立以来,围绕空间数字化所构建的深厚壁垒。在与潘慈辉博士的交流中,他提到了一个核心概念:「数字空间-算法-行业应用」的飞轮循环。而这个飞轮的核心驱动力,正是如视引以为傲的「真实空间数据库」。

核心资产:全球最大的三维空间数据库

作为最初脱胎于贝壳找房的事业部,如视从房产交易这一刚需场景切入,开启了大规模空间数字化的进程。截至 2025 年 9 月,如视已在全球范围内积累了突破 5300 万套的数字空间数据,覆盖面积超过 44 亿平方米

潘慈辉解释道:「这个全球最大的真实空间数据库,是如视算法能力迭代的驱动器。」

海量数据的积累,持续驱动着空间智能 AI 算法的提升;而更强的系统能力,又为房产租售、家装家居、商业零售、工业园区等九大行业提供了高质量的解决方案;这些解决方案的落地,反过来又让如视得以触达更多元化的空间场景数据。

图片

高质量空间数据:高精度、完备且一致

如果说 5300 万的构筑了护城河的宽度,那么数据的则决定了护城河的深度。潘慈辉强调,Argus 1.0 最大的技术突破,正得益于如视坚持自研硬件与算法的技术路线,这为其带来了「完备且一致」的高质量数据。

潘慈辉说:「我们的数据最大的特色,是在硬件设计和标定阶段就保证了最终采集的图像数据和激光点云数据是完备的,并且做到了像素级精度的对齐。」

不同于业内一些只有图像数据(缺乏绝对尺度)或只有激光数据(缺乏纹理)的方案,如视通过自研的伽罗华(Galois)系列 3D 激光扫描仪(其 P4 型号可直出 3 亿像素超高清全景图,图像与点云平均匹配误差小于 2 个像素),确保了每一份数据都是「所见即所得」的高精度数据对。这种在源头就严格标定、高度一致的真实数据,是 Argus 1.0 能够学习到准确深度和绝对尺度的前提,也是其远超其他算法的养料。

图片

      伽罗华 Galois P4 亮点概览

应用导向的底层创新

强大的数据飞轮背后,是一支由如视副总裁、首席科学家潘慈辉博士带领的研发团队。据潘博士介绍,如视从创立之初就坚持应用导向的底层技术创新,平均每年的研发投入都在 2 亿人民币以上。这份坚决的技术投入,造就了如视的技术实力和底气

持续的耕耘也为如视带来了国际上的权威认可。在学术上,如视团队的科研成果近年来多次入选 ICCV、CVPR 等国际顶会;在产品设计上,旗下的伽罗华 3D 激光扫描仪、REALSEE G1 手机云台和庞加莱手持实景扫描仪接连斩获 2021、2022 及 2023 年德国红点产品设计大奖。如今,这些技术和产品已服务于 9 大行业超过 3000+ 品牌客户,团队也已积累了 600 余项国内外授权专利。

正是这个由海量高质数据、软硬一体化和持续研发投入共同驱动的飞轮,为 Argus 1.0 的诞生奠定了基础。

Argus 1.0  从「单眼」到「百眼」的空间智能突破

如视算法团队喜欢用希腊神话人物为产品命名。潘慈辉在采访中分享道,单目图像深度估计算法 Cyclops(希腊神话中的独眼巨人),寓意着从单张图像、单一视角就能推测世界的深度。

而此次发布的 Argus 1.0,名称则源自希腊神话中的「百眼巨人」。这一命名极富象征意义,它预示着如视的重建技术正从「单视」推测跨越到「多视」全局一致性的新阶段。

具体技术上,Argus 1.0 基于 Transformer 架构构建,是一个前馈式神经网络模型。该模型基于如视累积的 近百万套真实高清空间数据(包含对玻璃、镜面等难题的处理)进行训练。得益于 Transformer 架构的通用性及其与大规模 3D 数据训练的协同效应,Argus 1.0 实现了兼容性、实时性生成质量三大维度的行业突破。

兼容性:业界首个支持全景图输入的推测大模型

首先是输入端的巨大突破。Argus 1.0 是目前业界已知首个、也是唯一一个支持全景图作为输入的深度推测大模型。

图片

      Argus 1.0 甚至可以将 AI 生成的全景图转换成点云

同时,它还广泛兼容单张 / 多张普通照片乃至 AI 生成的图片,具备极强的多源适应能力。

图片

      Argus 1.0 也支持普通图转点云

全景图推测深度的能力之所以重要,在于它直指 VR 内容生产的核心痛点。潘慈辉表示,Argus 1.0 能够「显著降低搭建全景图到 VR 的处理流程的门槛,极大提高处理效率」,让低成本、高效率的 3D 空间复刻成为可能。

实时性与一致性:毫秒级的全局重建

如果说 Cyclops 时代还是两步走,即先用算法推测单张全景图的深度,再通过额外的算法模块计算位姿、进行拼接;那么 Argus 1.0 则实现了一步到位。

潘慈辉向我们揭示了 Argus 1.0 的核心架构创新:「此次 Argus 的能力,是将之前 Cyclops 的深度推测能力和后续的位姿计算能力,融合到了一个算法模块中。」

通过将深度推测和位姿计算进行联合训练,模型得以更好地挖掘多视图之间的关联性,从而在全局尺度上实现更高的点云一致性和位姿精度。这一增量式到全局式的转变,带来了效率的质变。如视的官方报告显示,Argus 1.0 的推理效率达到毫秒级,是首个实时的全景图全局重建系统,真正实现了「全流程无感知响应」。

高质量:源自真实数据的稳健性

Argus 1.0 的高生成质量,则要归功于前文提到的如视独有的高精度、带尺度、像素级对齐的真实数据库。

在 3D 重建领域,玻璃、镜面、毛坯房、长走廊等场景一直是行业公认的难题。潘慈辉指出,其根源在于「一般的激光设备对玻璃镜子的测距能力不足,导致大家在学习过程中没有较好的监督数据」。

图片

而如视的解决方案是其多年技术的自然结果:「我们的业务场景中会有专门的工具对玻璃镜子进行标注,根据这些标注,我们修正原始的有问题的激光点云。使用修正后的激光数据进行训练就能很好地解决这一难题。」

正是得益于海量、多样化且经过精细业务标注的养料,Argus 1.0 充分学习并掌握了这些困难场景的特征,使其在面对传统重建难题时依然表现稳定,生成的 3D 空间显著优于其他缺乏真实尺度和对齐能力的方案。

如视的版图  空间智能「四层理论」与 AIGC 终局

Argus 1.0 的发布,不仅是一款工具的升级,更是如视「空间智能」版图中的一块关键拼图。潘慈辉在采访中详细阐述了团队的研发脉络:一个结合自身实践总结出的「空间智能四层理论」。

这四层理论清晰地定义了从数字化到智能化的演进路径:

图片
  1. 第一层:物理数据(重建):即 1:1 复刻;

  2. 第二层:潜藏数据(感知推理):理解空间结构、语义;

  3. 第三层:融合数据(业务):结合 CAD、IoT 等业务数据;

  4. 第四层:AIGC(生成交互):解决开集问题,实现泛化交互。

在这个框架下,Argus 1.0 是第一层(重建)的集大成者。它打通的 2D 到 3D 能力已经可以赋能诸多应用场景。例如,它可以用于生成时下流行的动态锁屏空间壁纸;潘慈辉在采访中提到:「Argus 模型推测的深度精度更高,分辨率更高,且深度带有绝对尺度信息」,效果优于苹果披露使用的深度推测算法。

图片

更进一步,如视透露,预计于明年初发布的 Argus 2.0 及后续版本可进一步用于实时渲染的 3DGS 模型和精细 Mesh 模型,为空间漫游提供沉浸式数字基底。通过与如视自研的空间智能算法结合,它还能驱动空间 CAD 自动生成、高精度语义分割及白模构建等高阶应用,实现从物理世界到数字空间,再赋能现实应用的闭环。

图片

潘慈辉也明确指出,团队的下一个重点难题,正是攻克第四层:AIGC 层。他认为,许多应用的答案不在空间本身,而在于链接「空间之外的信息」,如行业规范、人类偏好等。他总结道:「我们希望当 AIGC 这一层实现后,利用其空间之外的信息能力,我们能更加快速、低成本地对接更多的行业,输出解决方案。」

开放生态  为空间智能行业铺路

在实现自身技术闭环的同时,如视也发挥自身优势,为整个空间智能行业的基础设施「铺路」。

长期以来,空间智能领域的研究与应用面临着一个瓶颈问题:空间智能的「基石」—— 高质量的空间数据,存在巨大缺口。而如视一直以来的技术成果,恰好为解决这一问题打开了一扇窗。

因此,为了加速整个空间智能应用领域的研究演进,如视计划于今年年底开放 10000 套的室内房屋数据集(其中 1000 套新房数据、9000 套 AI 设计数据),这同时也是目前最大规模的空间三维数据集。这种开放生态,让更多人能站在如视积累的真实数据之上进行创新,从而整个行业的发展。

迈向空间智能的 AIGC 终局

从最初服务于房产交易的 VR 看房,到如今赋能九大行业的空间智能;从打磨软硬一体的采集闭环,到发布毫秒级的深度推测大模型 Argus,如视的路径清晰地展现了其「数字空间 - 算法 - 行业应用」飞轮的强大势能。

Argus 1.0 的发布,不仅是如视的飞轮势能的一次集中爆发,它也是一个空间信息解码器,为 3D 视觉领域带来了一个低门槛、高效率、高质量的基础工具。它向行业证明了一条核心路径:海量、高精度、高一致性的真实世界数据是训练空间基础大模型的决定性优势。

这标志着空间智能领域一个新纪元的开始:以真实数据为基石,从底层重建走向顶层 AIGC 应用的路径被正式打通。

随着如视这样的空间数据巨头不断推动技术演进和生态开放,一个万物可计算、虚实深度融合的未来,正加速向我们走来。

]]>

联系我们