动态列表

  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见
  • Atlas来了!ChatGPT嵌入浏览器,用谷歌的引擎,革谷歌的命
  • 奥特曼抢走小扎印钞机!Meta「占领」OpenAI,20%都是前同事
  • StereoAdapter:北大首提自监督,适配水下双目深度估计
  • AI杀入美股,DeepSeek又是第一!港大90后开源,AI股神人人都能造
  • 从“Spider”到SAM 3:概念提示分割小考
  • ChatGPT 上线「公司知识库」;Optimus 机器人因「手」再次延期;理想回应 MEGA 起火事件|极客早知道

VaseVQA:考古领域实现专家级,诊断+补弱RL框架



  新智元报道  

编辑:LRST
【新智元导读】在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?有研究人员给出了一条实用且富有启发性的答案:把大型多模态模型(MLLM)放在「诊断—补弱—精细化评估」的闭环中训练,并配套一个结构化的评测基准,从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

古希腊陶器是考古学和艺术史的重要实物证据。

研究者需要从单件陶器中提取多层信息:材质与工艺、形制类别、装饰主题、出土地与时间、甚至可能的作坊或画师。

不过传统计算机视觉和通用多模态模型在这类高度专业化任务上常陷入两类困境:

一是缺乏领域知识(模型在通用语料里几乎没接触过「雅典黑釉杯」或「红绘风格」这样的概念);

二是仅靠监督微调(SFT)容易学到「表层捷径」,在遇到组合性、推理性或少样本问题时就失效。

基于此,AI Geeks、澳大利亚人工智能研究所等机构的研究人员提出:既要有专门的数据与任务划分,也要有针对性的训练策略来补弱提升。

论文链接: https://doi.org/10.48550/arXiv.2509.17191

项目地址:https://github.com/AIGeeksGroup/VaseVQA

论文的技术主线可以用一句话概括:先把模型训练到有基础能力(SFT),再通过诊断找出各类问题的薄弱环节,用类型条件化的强化学习(RL)和精细化奖励去有针对性地补弱。

图1:现有视觉语言模型在古希腊陶瓶理解上的局限性与所提出的VaseVL框架

关键步骤如下:

  • 任务分层与问题类型化:作者把陶器理解任务划分为若干类(例如材质、工艺、形制、产地/归属、年代、装饰描述等),为后续诊断与差异化训练提供维度。


  • 诊断评估:对SFT后的模型在每一类问题上分别评测,识别哪些类型表现弱(例如归属推理与装饰描述通常比简单事实类问题更难)。


  • 类型条件化强化学习:针对弱项设计加权奖励,奖励由「关键词命中率 + 语义相似度」组成;同时采用带KL正则的策略更新手段避免模型过度偏离原有SFT行为。作者还引入一种稳定化的策略优化方法(论文提出的变体)来保证训练稳定。


  • 按类型细化评估指标:不同问题类型采用更合适的评价方式(比如对描述类用生成质量指标,对事实类用字符/关键词相似度),避免单一指标一刀切。


图2:VaseVL的整体框架。该方法将有监督微调(SFT)与基于组相对策略优化(GRPO)的强化学习相结合。给定陶瓶图像x、问题q 和参考答案a^*,模型通过在词汇奖励与语义奖励之间取得平衡,并限制策略偏离参考策略 ,从而提升其推理能力。


数据与基准(VaseVQA)
让评测更具信服力

为了能系统评估上述方法,研究人员同时构建了一个面向古希腊陶器的多模态问答基准(VaseVQA)。

该基准覆盖大量陶器图片与多类型问答对,且在标注上引入专家审校,力求兼顾规模与专业性。更重要的是,基准把任务按问题类型拆分,使得模型的薄弱处能被明确定位并针对性优化。

表1:VaseVQA基准测试上的性能比较。RL代表推理注入。

关键发现与实证价值

论文的实验显示:

仅做SFT能显著提升模型的基础识别能力,但在归属推理和复杂描述上仍有限;

在诊断基础上做类型条件化RL优化后,模型在那些先前薄弱的类型上有可观提升——这说明「补弱导向」的训练策略在专业垂直任务上很有效;

细粒度的评价(按问题类型)对于判断模型真实能力与设计针对性改进尤为重要。

表2:消融实验结果说明。RI表示Reasoning Injection(推理注入)Qwen2.5-VL-SFT表示前述模型经过 有监督微调(SFT) 的版本,而最后一行展示的是提出的VaseVL 模型的性能表现。


意义、局限与可推广方向

这项工作最有价值的,不只是把一个模型调好,而是提出了一套「如何让通用多模态模型在高度专业领域变得可靠」的方法论:任务分层 → 定位薄弱 → 有针对性地微调与评估。

它对文化遗产、医学影像、材料科学等其他垂直领域都有启发意义。

但需谨慎的一点是:强化学习阶段高度依赖奖励设计,若奖励不当或数据偏倚,模型可能学习到新的偏差。

此外,许多考古归属问题本身具有主观性与学术争议,模型输出仍需专家把关作为辅助工具而非最终裁决。

VaseVQA展示了把「领域诊断」嵌入多模态训练流程的可行路径。

文化遗产与AI的结合,不应仅止于表层识别,而应追求「可解释、可校验、有专家协同」的工具化落地。

未来,当这类方法被更广泛采纳,不同学科的专家与工程师协作,就能把AI打造成真正有助于保护与理解人类文化记忆的可靠伙伴。

参考资料:
https://doi.org/10.48550/arXiv.2509.17191

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652639227&amp;idx=2&amp;sn=d7f8f3289ea3bad9e862a520231af49b&amp;chksm=f010964658376edf14564432e4de60b7ea62fd97e69bbe1ff3ad63e8d1b72ca621603ab757a6&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/AtEo7EP3Nb&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们