动态列表

  • 沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o
  • 形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
  • 谷歌Veo 3魔性切水果刷屏全网!逼真视频狂吸10万粉,全体网友颅内高潮
  • 3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
  • AI子弹已上膛!OpenAI斩获美国防部2亿美元大单,密谋向微软「开枪」
  • 逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
  • 想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
  • 23 万的小鹏G7,「硬刚」Model Y和小米YU7
  • 豆包电脑版上线AI播客功能,支持一键生成播客
  • 准确率是DeepSeek-R1两倍以上,前谷歌CEO押注的初创公司开源240亿参数科学推理模型
  • Nature子刊 | 显著提升生物医学中蛋白质递送能力,生成式AI扩展线粒体靶向工具包
  • 读博士,去哪找那么多创新点?水水得了...
  • ICML 2025 | 北大KA-Prompt首创提示知识对齐范式,跨域推理不再“鸡同鸭讲”
  • 欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒
  • 北京内推 | 联想研究院人工智能实验室招聘多模态算法实习生
  • 首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
  • 从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
  • 首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
  • 同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
  • 突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
  • 从「万元咨询」到夸克免费 AI:一场高考志愿的「信息平权」之战
  • CVPR 2025 | 零开销缓解物体幻觉:基于零空间投影的多模态大模型物体幻觉消除方法
  • 刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
  • 搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
  • 华为发「天才少年」课题,涉 AI、汽车;雷军:小米 YU7 提前发布;川普推「MAGA」土豪金手机,3585 元起
  • CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?
  • Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
  • 刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 目标检测之“看见角度”:YOLO11 与定向边界框(OBB)检测
  • 大力出奇迹失灵了?ModelSwitch跳出采样黑洞,改写大模型推理范式
  • ACL 2025 | 数据多不如风格齐?SCAR精选<1%样本,指令微调效果飙升
  • 从“比像素”到“懂语义”!Video-Bench实现视频质量精准打分,突破73%人类认同率
  • 北京内推 | 小米汽车自动驾驶与机器人部招聘感知算法实习生
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%
  • 视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字
  • 这届机器人太会了!百事蓝宝出道,人形机器人也开始卷情绪价值了
  • 全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
  • 无需上下文,MCP新机制让大模型主动“提需”:节约 98% token 开销,并保持准确率基本不变!
  • 500 万下载、ARR 400 万美元,这只「外星 AI」为何让年轻人上头?
  • 开盘暴涨 3 倍,全球化的影石给中国硬件创新立了新榜样
  • 这家日本企业,有张能跑「百万行」的飞书多维表格!
  • AutoMat:让「看见原子」成为「理解材料」的科学直通车
  • 浙大开发的荧光纳米传感器,超96.67%的准确率识别植物信号
  • 1000 亿天价,扎克伯格买下「半个天才」和 Meta AI 的未来
  • 「Next-Token」范式改变!刚刚,强化学习预训练来了
  • Mistral的首个强推理模型:开源开源,推理速度快10倍
  • 103K「硬核」题,让大模型突破数学推理瓶颈
  • 10%训练数据超越100%表现,机器人学习领域迎来重要突破
  • 建议所有博士都去学一遍,赢麻了!
  • ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
  • 20 万一台的「人脑计算机」,可能是人类战胜 AI 的唯一方式?
  • 刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
  • 时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
  • iOS 26 丑上热搜;多家车企宣布将账期统一至 60 天内;OpenAI 推出最强推理模型 o3-pro | 极客早知道

Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系

原创 让你更懂AI的 2025-06-12 12:34 北京

Make Image Caption Great Again!

图像描述(Image Captioning)是多模态学习中基础且重要的任务,随着 LLM 时代模型的发展,现代的视觉语言模型可以生成详细而全面的描述。然而,由于评测的主观性和困难,当前的视觉语言评测往往只关注 VQA、推理等任务,忽略了对模型 Detailed Image Captioning 能力的评估。


为了促进大模型时代图像描述的研究,本文主要做了以下三方面的贡献:


1. 构建了第一个面向 Detailed Image Captioning 的大规模人工评测体系

CapArena,首次观察到显示顶尖模型如 GPT-4o,在图像描述任务已经达到或超过人类专家水平。


2. 评估了各类指标、以及 VLM-as-a-Judge 和人类偏好的一致性,结果展现了 LLM 时代的图像描述评测的范式迁移:从传统的 reference-based 方法切换到具有更高一致性和区分性的 pair-wise 对战方法;同时指出指标的“系统性偏差”是影响和人类偏好一致性的关键因素。


3. 构建一个轻量的 Detailed Image Captioning 自动化评测基准 CapArena-Auto,单次 $4 成本达到了和人工排名 94.3% 的相关性。

论文题目:

CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era (ACL 2025 Findings)

作者单位:

南京大学、香港大学、上海AI Lab

论文地址:

https://arxiv.org/abs/2503.12329

项目主页:

https://caparena.github.io/



引言

图像描述是计算机视觉与自然语言处理领域的长期挑战,在辅助视障人士、多媒体检索等场景中具有重要应用价值。随着大语言模型(LLMs)的快速发展,现代视觉语言模型(VLMs)已突破传统短描述的局限,能够生成长文本的详细描述,为领域带来新机遇。


然而,当前研究面临一个重要瓶颈:Detailed Image Captioning 因缺乏明确答案,传统的选择题式评测方法失效,缺失可靠的评测方法;导致当前主流 VLM-benchmark 多聚焦于视觉问答(VQA)和多模态推理任务,忽视图像描述这一核心需求;少有的评测 benchmark 如 MSCOCO 仅包含短描述文本(平均长度仅 10 词),明显过时。


研究者既难以客观衡量现有 VLMs 的描述能力,也无法有效优化模型性能。


为此,本研究首先构建了首个大规模人类标注的 Detailed Captioning 对战评测系统 CapArena(包含 6000 + 高质量人工标注,覆盖 14 个先进 VLMs 与人类表现的对战)。


结果显示,当前顶尖模型如 GPT-4o 已经打平甚至超过人类专家的表现,这标志着图像描述领域的一个里程碑;同时,开源模型与商业模型仍存在显著差距,表明小型开源模型在图像描述任务上仍有很大提升潜力。


借助上述标注数据,我们系统性地评估了一系列传统指标、以及 VLM-as-a-Judge 都在图像描述评估上与人类偏好的一致性。


我们首次展示了指标的系统性偏差对 caption 评估的影响,最终结果揭示 LLM 时代的图像描述评测所需的范式迁移:从传统的 reference-based 方法切换到具有更高一致性和区分性的 pair-wise battle 配合 VLM-as-a-Judge 方法。


为此,本研究通过构建首个人类标注的大规模评测体系 CapArena(包含 6000 + 高质量人工标注,覆盖 14 个先进 VLMs 与人类表现)发现,顶尖模型如 GPT-4o 首次实现与人类水平相当甚至更优的表现,这是一个惊人的结果,而开源模型与商业模型仍存在显著差距,同时 InternVL2-26B 又凸显了轻量化高效 VLMs 的潜力。


针对评测方法,研究揭示传统指标(如 CLIPScore)对详细描述完全失效,基于规则的指标(如 METEOR)虽在单条描述层面与人类评判部分契合,却存在跨模型的系统性偏差,导致模型排名与人类偏好严重偏离。


最终,我们提出了一个轻量高效的自动化 Detailed Captioning 评测基准CapArena-Auto,通过 600 条样本配合 VLM-as-a-Judge,单词评测 $4 达到了和人类专家 94.3% 的相关性。


基于此,本工作创新提出带参考描述的 VLM-as-a-Judge 方法,其在不同层级均展现与人类判断的高度一致性,并据此发布自动化评测基准 CapArena-Auto——通过 600 样本的成对比较范式,结合三基线模型对比策略,仅需 4 美元/次测试即可实现 94.3% 的人类排名相关性,为高效、可靠的详细描述评估建立新范式。


该成果不仅填补了 LLM 时代图像描述生成的评测空白,更为模型能力诊断、优化迭代及轻量化开发提供了关键工具与方法论支撑。



CapArena 人工评测体系

2.1 CapArena 标注平台

本研究构建 CapArena 评测体系,首次通过大规模人类标注与创新的标注体系,系统评估 14 个先进 VLMs 的详细描述能力,并揭示关键发现。


借鉴 Chatbot Arena,团队构建了 CapArena 平台,突破传统评分制的局限性,参考大语言模型开放域评测经验,设计匿名成对比较法(Pairwise Comparison),以模型间“对战”形式提升评估可靠性。


平台引入创新性的动态优化算法:通过控制采样概率的策略加速模型排名收敛,结合 Bradley-Terry 模型计算置信区间,确保排名统计显著性。


规定 次采样的协方差矩阵,那么 时刻对于模型对 的采样概率 设置为:

2.2 数据来源与标注协议

研究团队采用 DOCCI 数据集的高分辨率图像及人工撰写长描述作为基础,覆盖多样化真实场景,并精选涵盖商业与开源模型的 14 个 VLMs(如 GPT-4o、Llama-3.2、InternVL2-26B)在图像集上生成描述,设计精简提示词控制生成质量。

评测协议聚焦三大核心维度:精确性(描述与图像细节的严格对齐,如物体属性、空间关系)、信息量(关键内容的覆盖全面性)以及幻觉抑制(对虚构内容的惩罚),同时要求专注于质量(如忽略文本长度干扰、优先质量评估)。通过规范标注协议,有效降低主观偏差。


最终,标注团队完成 6,522 条标注,标注者内部一致性达 0.782,单条标注平均耗时 142 秒。

2.3 VLM Detailed Image Captioning 评测结果

评测结果显示三大关键性结论:


其一,顶尖模型首次超越人类水平,GPT-4o 在细节捕捉(如详细动作形态)与信息覆盖度上媲美甚至超越人类标注,标志着模型图像描述能力的突破性进展;


其二,开源模型差距显著,多数开源模型(如 Llama-3.2-90B)在细粒度视觉理解上落后于商业模型,但其中 InternVL2-26B 凭借 6B 视觉编码器脱颖而出,证明高效小模型具有潜力;


其三,通用评测指标脱节,通用多模态 benchmark(如 MMMU、POPE)与详细 Detailed Image Captioning 能力相关性弱,部分模型在描述任务中表现卓越却在通用任务得分偏低,凸显领域专用评测的必要性。



图像描述 Metric 分析

本研究基于 CapArena 的 6000 + 高质量人类标注数据,系统评估了图像描述传统指标、Detailed Captioning 专用指标及 VLM-as-a-Judge 方法的与人类偏好的一致性。

3.1 Caption-level Agreement and Model-level Agreement

我们选取了两个层面的一致性用来衡量 Metric 的质量:


Caption-level 一致性,计算所有样本对中与人类标注相同的比例,同时也考虑到模型间性能差异,根据胜率,将模型对按照区分的难易程度从易到难分成4个层次;


Model-level 一致性,对于每一个指标给出的 pair-wise battle 结果,使用与人工评测相同的 ELO 分数计算方法得到该指标下模型的排名,并计算与人类标注得到的模型间排名的相关性。

3.2 结果分析

我们发现传统指标全面失效,他们在短描述任务中表现较好,但在详细描述生成任务中表现不佳。


这些指标在长文本和复杂语义对齐方面存在不足,例如基于 n-gram 匹配的指标(如 CIDEr)难以处理详细描述的灵活性。而基于 CLIP 的指标(如 CLIPScore)在处理长文本和复杂语义时,无法有效捕捉图像内容与描述之间的细粒度对齐。


而利用强大的视觉语言模型(如 GPT-4o、Qwen2.5-VL、LLaVA 等)作为评判工具,能够模拟人类偏好。VLM 在详细描述生成任务中表现出更强的辨别能力,尤其是 GPT-4o,其判断与人类偏好高度一致。同时我们发现引入参考描述(reference-enhanced variant)可以进一步提高 VLM 的判断准确性。


此外我们发现一些有趣的现象,传统图像描述指标 METEOR 以及以文本长度为标准的 Output Length(输出越长认为越好)在 Caption-level 上的一致性有着较好的表现,但是在 Model-level 上却无法很好地符合人类偏好。


我们认为这是因为出现了系统性偏差。

3.3 系统性偏差

为了分析这一现象,我们计算了每个模型在所有对战中的平均胜率(即该模型在对战中胜出的比例),并将其与人类标注的 Golden Win Rate 进行比较:如下图所示,红色表示某个指标高估了某个模型,蓝色表示其低估了某个模型,颜色的深浅代表高估或低估的程度。


结果显示,METEOR 和 Output Length 有着整体明显更深的颜色,意味着它们经常性高估或者低估特定模型,即它们对特定模型存在偏见。


而 VLM-as-a-Judge 整体颜色较浅意味着偏见更低,其产生的错误更类似于人类标注者的随机不一致,而非对特定模型的偏好。


因此 VLM-as-a-Judge 有着更高的 Model-level Agreement。


我们发现部分评估指标在对模型进行评价时,可能对某些特定的模型表现出固定的偏好或偏见。


这种偏差不是随机的,而是由指标本身的特性或设计导致的。例如,某些指标可能倾向于高估某些模型的生成结果,而低估其他模型的结果,从而导致对模型性能的估计不准确。


为了分析系统性偏差,我们计算每个模型在所有对比中的平均胜率(即该模型在对比中胜出的比例),并将其与人类标注的 Golden Win Rate 进行比较。


如果某个指标的平均胜率与人类标注的胜率存在显著差异,则认为该指标对某些模型存在系统性偏差。偏差可以是正的(指标高估了模型的性能)或负的(指标低估了模型的性能)。

通过可视化偏差分布,直观的展示不同指标对不同模型的偏差程度,GPT-4o-as-a-Judge 的平均偏差为 4.4%,而 METEOR 的平均偏差为 8.2%,这表明 GPT-4o 的偏差更小,说明其与人类判断的不一致更多是由于随机偏好,而非对特定模型的有害偏见,从而使其在模型排名中更具可靠性。


系统性偏差是一个关键问题,因为它可能导致评估指标无法准确反映模型的真实性能。


即使某个指标在单个对比中与人类判断一致率较高(即 Caption-level Agreement 较高),但如果它对某些模型存在固定偏好,那么在整体模型排名中可能会出现偏差(即 Model-level Agreement 较低)。这种偏差会误导模型开发者,使他们无法准确判断模型的优劣。



自动评估基准 CapArena-Auto

最后,为了减少对昂贵且耗时的人工标注的依赖,我们提出了 CapArena-Auto 自动评估框架,用于快速评估详细图像描述生成模型的性能。该框架包含 600 张高质量测试图像,并通过与基线模型的成对对比来评估模型性能。


为了确保测试集的多样性,我们采用了 DOCCI 提供的图像特征聚类方法,从 149 个聚类中均匀采样了 600 张图像。


此外,我们还使用基于 CLIP 特征的过滤方法移除了过于相似的样本,以确保最终选择的图像质量。


我们使用了三个不同性能水平的基线模型:GPT-4o、CogVLM-19B 和 MiniCPM-8B,并选择 GPT-4o 作为评估者,因为它与人类偏好的一致性最高,并提供人类参考描述以辅助判断。


为了计算测试模型的最终得分,我们在每次成对对比中为胜利分配 +1,失败分配 -1,平局分配 0。测试模型在 CapArena-Auto 中的最终得分是其在 600 个测试样本上的得分总和。

结果证明,CapArena-Auto 在 Spearman 和 Kendall τ 系数上均显著优于现有基准测试,表明其与人类偏好的一致性最高。此外,CapArena-Auto 单次评估的成本仅为 4 美元,使其成为一种轻量高效的详细图像描述评估基准。



总结

本文探讨了在大语言模型(LLM)时代详细图像描述生成任务的现状。通过大规模人类标注,我们发现当前最先进的视觉语言模型首次达到或超越了人类水平的表现。


同时,我们还深入分析了现有图像描述评估指标,揭示了图像描述评估的一个范式迁移:从传统 reference-based 指标到有着更高一致性和区分度的 VLM-as-a-Judge 评测。


为了推动图像描述研究发展,我们发布了 CapArena-Auto,一个与人类偏好高度一致的自动化基准测试工具,为详细图像描述评估提供了一种经济高效的解决方案。


更多阅读



#投 稿 通 道#

让你的文字被更多人看到



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


阅读原文

跳转微信打开

联系我们