动态列表

  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道

AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”

CV君 2025-11-10 13:01 江苏

AI模拟手术,究竟是“真神”还是“花架子”?

最近,视频生成领域的基石模型正展现出作为潜在“世界模型”模拟物理世界的惊人能力。然而,当这些技术被应用于像外科手术这样高风险、需要深度专业因果知识而非普适物理规则的领域时,其表现如何?这是一个至关重要但尚未被探索的领域。

为了系统地应对这一挑战,来自耶鲁大学、诺丁汉大学等机构的研究者们进行了一项开创性的研究。他们提出了 SurgVeo,这是首个由专家策划的、用于评估手术视频生成模型的基准;同时,他们还设计了一个新颖的四层评估框架——手术合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在从基本外观到复杂手术策略等多个层面评估模型生成内容的质量。

  • 论文标题: How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

  • 中文标题::外科医生离手术世界模型还有多远?基于专家评估的零样本手术视频生成研究

  • 作者: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo

  • 机构: 耶鲁大学,诺丁汉大学,中国科学院,山西医科大学,山东大学,慕尼黑工业大学,罗切斯特大学

  • 论文地址: https://arxiv.org/pdf/2511.01775

  • Benchmark(待开源): https://github.com/franciszchen/SurgVeo

当前挑战:通用世界模型难以驾驭专业领域

“世界模型”的核心思想是让机器建立一个关于世界如何运作的内部表征,理解环境如何演变、行为如何导致后果。近期的视频生成模型,如谷歌的Veo,已经能够生成非常逼真的通用场景视频,似乎让我们离通用物理世界的模拟器越来越近。

然而,外科手术领域与日常物理世界有着本质的不同。它不仅仅是关于物体如何移动或碰撞,而是充满了需要“专家直觉”的知识,比如解剖学、生理学和生物力学。一个成功的“手术世界模型”必须理解手术刀切开不同组织时会发生什么,理解特定操作背后的战略意图。将为模拟“常识物理”而生的模型直接应用于手术这样需要“专家知识”的领域,其能力边界在哪里?这正是本研究试图回答的核心问题。

研究方法:SurgVeo基准与SPP评估框架

为了科学地衡量现有视频生成模型在手术领域的真实能力,研究者构建了一套完整的评测流程。

首先,他们创建了 SurgVeo 基准。该基准包含了两种具有代表性但风格迥异的手术视频:腹腔镜子宫切除术和内窥镜垂体手术。前者代表了在密闭空间内的软组织操作,后者则要求在关键神经血管结构附近进行极其精细的操作。研究者从这些真实手术录像中提取视频片段,形成“起始帧-后续真实视频”的数据对。

接着,他们让先进的 Veo-3 模型执行一项零样本(zero-shot)预测任务:给定手术场景的起始帧和一段文本提示(prompt),模型需要生成接下来8秒的手术视频。

最关键的一步,是由四位具有执业资格的外科医生组成的专家小组,使用研究者提出的 手术合理性金字塔(SPP) 框架来对生成的视频进行打分。SPP框架将评估分为四个层级,从下到上,要求越来越高:

  1. 视觉感知合理性 (Visual Perceptual Plausibility) :评估视频最基本的外观质量,如清晰度、光照、组织纹理和视频流畅度。

  2. 器械操作合理性 (Instrument Operation Plausibility) :评估手术器械的运动轨迹、操作技术是否符合物理规律和手术规范。

  3. 环境反馈合理性 (Environment Feedback Plausibility) :评估手术场景(如组织、器官)对器械操作的反应是否真实,例如,组织被牵拉后的变形、切割后的出血模式是否符合生物力学和解剖学原理。

  4. 手术意图合理性 (Surgical Intent Plausibility) :评估预测的系列动作是否展现出清晰、逻辑自洽且符合当前手术阶段的战略目标。这是最高层次的评估,考验模型是否理解“为什么”要这么做。

专家们会在生成的视频播放到第1秒、第3秒和第8秒时,参照真实视频,对这四个维度进行1-5分的打分。

实验结果:惊人的“合理性差距”

研究结果揭示了一个深刻的断层,研究者称之为“合理性差距”(plausibility gap):尽管Veo-3在生成视觉上令人信服的手术场景方面表现出色,但在SPP框架的更高层级上却严重失败。

量化数据分析

下方的两个表格分别展示了在腹腔镜手术和神经外科手术中,不同提示策略下,模型在三个时间点的得分情况。

腹腔镜手术评估分数

神经外科手术评估分数

我们可以清晰地看到:

  • 视觉质量高:在两个手术类别中,“视觉感知合理性”的初始得分都很高(例如,基线提示下腹腔镜手术为3.72分,神经外科为3.88分)。外科医生评价生成的图像“清晰得惊人”。

  • 高层逻辑差:然而,分数在SPP金字塔的更高层级急剧下降。器械操作、环境反馈和手术意图的得分要低得多,并且随着时间的推移(从1秒到8秒)迅速恶化。例如,在腹腔镜手术中,环境反馈合理性得分从1秒时的3.06分骤降至8秒时的1.64分。

腹腔镜手术评估分数的小提琴图

神经外科手术评估分数的小提琴图

小提琴图更直观地展示了这种差异。视觉感知的得分(最左侧)密集分布在高分区域,而其他三个维度的得分则大量堆积在低分区域,且随着时间推移(颜色由浅到深)不断下移。

有趣的是,研究还发现,为模型提供更明确的“阶段感知”提示(例如,明确告知当前是“血管结扎”阶段)并不能显著改善其表现。这有力地证明,模型的问题不在于缺少上下文信息,而在于根本无法理解和运用这些专业的领域知识

典型失败案例

定性的案例分析让这些冰冷的数字变得更加触目惊心。

上图展示了一些典型的失败案例:

  • (a) 视觉质量失真:生成的视频画面亮度发生突兀且不自然的变化,与稳定的手术照明条件不符。

  • (b) 器械错误:模型“幻觉”出了一种现实中不存在的手术器械。

  • (c) 操作不当:真实操作需要向左移动,模型却生成了向右的错误动作。模型展示的器械在处理黏液,而正确的手术操作应是在另一目标部位上进行冲洗与吸引的协同动作。

  • (d) 不当手术目标:模型展示的器械在处理黏液,而正确的手术操作应是在另一目标部位上进行冲洗与吸引的协同动作。

  • (e) 环境反馈错误:模型违反物理定律,让吸引器像提拉固体一样将一整块明胶海绵吸走,而不是吸走表面的液体。

  • (f) 意图错误:真实意图是在硬脑膜上注射生物胶水,模型却错误地预测了一个完全不相关的动作——用棉片擦拭。

错误类型的量化分布(上图)进一步证实了“合理性差距”。在两种手术中,与高层手术逻辑相关的错误(如手术意图、器械操作错误)占了绝大多数,而底层的视觉质量问题仅占一小部分(腹腔镜6.2%,神外2.8%)。

当然,模型偶尔也能生成一些高分案例,但这些通常是手术动作简单、甚至是暂停的场景。

高分案例:(a)中生成了自然的解剖动作,(b)中则几乎完美复刻了手术暂停的场景。

灾难性失败案例:(a)中需要缝合,模型却幻觉出器械并执行无法识别的操作;(b)中需要涂胶水,模型完全搞错了意图。

研究意义与未来展望

这项研究首次提供了量化证据,揭示了当前最先进的视频生成模型在手术AI领域中,令人信服的视觉模仿与真正的因果理解之间存在巨大鸿沟

CV君认为,这项工作意义重大。它告诉我们,仅仅依靠在通用数据上进行大规模训练,可能不足以让模型掌握专家领域的复杂规则。未来的“手术世界模型”可能需要新的架构范式,能够整合结构化的领域知识,并在生成过程中强制执行严格的物理和逻辑约束。

SurgVeo基准和SPP评估框架为未来的研究奠定了一个至关重要的基础和路线图,指引着我们如何开发能够驾驭真实世界医疗领域复杂性的下一代模型。虽然通往真正的手术世界模型道阻且长,但这项研究无疑是迈出的清醒而关键的一步。

阅读原文

跳转微信打开

联系我们