动态列表

1美元颠覆6000亿广告界，哥大辍学天才30天狂飙500万营收
从游戏少女到AI女神！她用物理驯服AI，让飓风预测快1000倍
全球首个AI科学家天团出道！007做实验碾压人类博士，生化环材圈巨震
只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%
刚刚，ICML 2025录用结果公布！好评论文惨遭拒，审稿人敷衍引全网怒喷
ICML 2025放榜！接收率26.9%，高分被拒，低分录用惹争议
LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能
Sebastian Raschka 新书《从头开始推理》抢先看，揭秘推理模型基础
马斯克怒怼特斯拉换帅报道；苹果库克称关税成本暂不转嫁给消费者，但未来难说；游戏科学获五四青年奖章集体
400万token新SOTA！英伟达UIUC联手：兼顾长短上下文顶尖性能
AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥
北大出手，物理学院天才们教AI「做人」！PHYBench成大模型物理能力试金石
DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过
被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作
后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述
ScienceOne正式发布：基于科学基础大模型的智能科研平台
一个月 78 块的 AI 日历，治好了我的「万事开头难」
DeepSeek 发布 Prover-V2 模型；小米首个推理大模型开源；饿了么宣布超百亿补贴加入外卖战局
2万亿巨兽来袭，小扎亮底牌！首次回应Llama 4风暴，开源榜单背锅
清华出手，挖走美国顶尖AI研究者！前DeepMind大佬被抄底，美国人才倒流中国
刚刚，DeepSeek-Prover-V2-671B开源！
发布 Qwen3，阿里云拉开新一轮开源模型竞赛的序幕
Video-XL-Pro：端侧3B模型长视频理解新sota！性能赶超7B巨头！
解决200种复杂材料，10Å尺度模拟纳米晶体，哥大团队用4万个原子结构训练AI，登Nature子刊
真·开源MCP平台来了！ACI.dev能一站直连600+工具，让你的智能体秒变全能王！
刚刚！OpenAI回滚了最新版本的GPT-4o，因ChatGPT「过度谄媚」
只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍
上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍
R1-Zero的无监督版本来了！SFT不再是必须，EMPO重新定义大模型推理微调
ICLR 2025 | 差分注意力机制爆火！DIFF Transformer击穿长文本建模天花板
北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec，实现效率性能双突破
北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
沃尔玛通知中国供应商恢复供货；Meta 推独立 AI 助手，融合社交元素；因「过于奉承」，OpenAI 撤回更新
AI包办79%代码，程序员饭碗不保！前端开发要凉，人类只配改Bug？
细思极恐，AI操控舆论达人类6倍！卧底4月无人识破，Reddit集体沦陷
大模型时代，百度智能云迎来最大机会
我用Qwen3实测了9道经典难题，再聪明的AI也有犯傻的时候
「拍照问夸克」，从「Know-What」到「Get it Done」的跃迁
终端云端三连发！无问芯穹开源大模型推理加速神器，加码构建新一代端、云推理系统
小红书，不止看车，更看生活
阿里千问 3 登顶全球最强开源模型，性能超越 DeepSeek-R1、OpenAI-o1
GPU无上限+AGI顶尖课题！蚂蚁星「Plan A」全球招募下一代AI领航者
模仿or探索？LUFFY：我全都要！巧妙融合外部指导，RL推理不再死板
33,000美元奖金池！Meta CRAG-MM挑战赛开启，多模态RAG巅峰对决
博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
ChatGPT的尽头也是「带货」：3、2、1，上链接
ICLR 2025｜首个动态视觉-文本稀疏化框架来了，计算开销直降50%-75%
淘天集团“T-Star计划”首次向实习生开放，提供转正Offer
猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火
语音领域ISCA Fellow 2025公布：上海交大俞凯、台大李宏毅等三位华人入选
2025 Meta CRAG-MM Challenge 赛题发布
上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025
蚂蚁密算福州发布密态可信数据空间：高性能、低成本和全链路安全
海螺+可灵、上线两个多月、5万+围观，零破绽，这支AI广告藏得太深了
阿里开源新一代通义千问模型 Qwen3；传刘强东曾和王兴共聚晚餐；马斯克：5 年内机器人将超越外科医生 | 极客早知道
AI 2027研究揭秘美国算力真相！中国全球AI专利Top1，但美国或以算力取胜
华人博士用ChatGPT治病，比医生靠谱？OpenAI联创点赞
100年企业知识超10万文件，「内网版ChatGPT」血洗最卷行业！全员70%和AI共事
AGI幻灭，LeCun观点得证？哈佛研究实锤AI不懂因果，世界模型神话破灭
52页PPT，谷歌Gemini预训练负责人首次揭秘！扩展定律最优解
Apple Watch 10 周年，哪些「环」直到现在也没「合上」？
从「黑科技」到「量产」，爱奇艺的虚拟制作进化论
打造「无所不能、无处不在」的 AI，百度为何要从「操作系统」做起？
北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？
ICLR 2025 Oral｜差分注意力机制引领变革，DIFF Transformer攻克长序列建模难题
ICLR 2025 | 大模型是否能做到有效“遗忘”？从梯度视角重新审视LLM反学习方法
ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
智象未来x商汤大装置：全栈赋能全球首个开放使用视频生成DiT模型
两篇Nature Medicine，DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
AI+量子计算：港科大等提出突破性低温存内计算方案
除了Ilya、Karpathy，离职OpenAI的大牛们，竟然创立了这么多公司
字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题
首个系统性工具使用奖励范式，ToolRL刷新大模型训练思路
模型压缩到70%，还能保持100%准确率，无损压缩框架DFloat11来了
重磅发布 | 复旦《大规模语言模型：从理论到实践（第2版）》全新升级，聚焦AI前沿
AR智能革命！Satori系统读懂人类意图，科幻电影场景成现实
受关税影响，美电商商品价格普涨；京东外卖扩招 10 万旗手；苹果 AI 智能眼镜有望 2027 年推出｜极客早知道
一行代码不用写，AI看论文自己「生」出代码库！科研神器再+1
OpenAI没说的秘密，Meta全揭了？华人一作GPT-4o同款技术，爆打扩散王者
深度学习基础架构革新？通过梯度近似寻找Normalization的替代品
ICLR 2025 | 计算开销减半！Dynamic-LLaVA刷新多模态大模型推理加速上限
迈向长上下文视频生成！FAR重塑下一帧预测范式，短视频与长视频双双登顶SOTA
英伟达送钱送算力！数据过滤挑战赛开启：白嫖A100，冲击1万美金大奖！
字节启动Top Seed大模型顶尖人才计划2026届校招
纳米AI放大招！MCP万能工具箱，人人都能用上超级智能体
Devin开发团队开源DeepWiki，助你快速读懂所有GitHub代码库
ICLR 2025 | 无需训练加速20倍，清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
基于奖励驱动和自组织演化机制，全新框架ReSo重塑复杂推理任务中的智能协作
阶跃星辰发布图像编辑模型 Step1X-Edit，性能开源最佳
百度Create AI开发者大会：李彦宏发布两大新模型、多款热门AI应用，帮助开发者全面拥抱MCP
清华系智谱×生数达成战略合作，专注大模型联合创新
九章云极DataCanvas公司双论文入选全球顶会ICLR，推动AI解释性与动态因果推理核心进展
在介观尺度「找不同」？ML预测材料失效，使材料设计更安全
阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
传马斯克 xAI 正寻求 200 亿美元融资；Waymo 未来或向个人销售自动驾驶汽车；贾跃亭回应「下周回国」梗
GPT-4.5功臣遭驱逐！奥特曼盛赞工作出色，美国深陷AI人才危机
强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏
美国政府「AI行动计划」万言书发布！ OpenAI与Anthropic呼吁联手封锁中国AI
全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源
70%大小，100%准确！完美压缩LLM性能0损失，推理速度最高飙升39倍
秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一
OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！
跨机型诊断难题新突破：上交大、商飞、东航打造国产大飞机时序大模型智能诊断新路径
具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互
20万奖金池×最火技术风口！欧莱雅集团首届Agent黑客松火热开启，等你来战
蚂蚁集团全球招募顶尖AI人才
人工智能接管核电站，商业化的智能核电管理是否正在路上？
Manus 获超 5 亿融资，估值涨 5 倍；苹果希望明年美售 iPhone 全部「印产」；传外卖补贴商家承担一半，京东回应

浙大&港理工等提出InfiGUI-R1：利用强化学习，让GUI智能体学会规划任务、反思错误

2025-05-02机器之心来源

当前，多模态大模型驱动的图形用户界面（GUI）智能体在自动化手机、电脑操作方面展现出巨大潜力。然而，一些现有智能体更类似于「反应式行动者」（Reactive Actors），主要依赖隐式推理，面对需要复杂规划和错误恢复的任务时常常力不从心。

我们认为，要真正提升 GUI 智能体的能力，关键在于从「反应式」迈向「深思熟虑的推理者」（Deliberative Reasoners）。为此，浙江大学联合香港理工大学等机构的研究者们提出了 InfiGUI-R1，一个基于其创新的 Actor2Reasoner 框架训练的 GUI 智能体，旨在让 AI 像人一样在行动前思考，行动后反思。

论文标题：InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners
论文链接：https://arxiv.org/abs/2504.14239
项目仓库：https://github.com/Reallm-Labs/InfiGUI-R1
模型地址：https://huggingface.co/Reallm-Labs/InfiGUI-R1-3B

从「反应行动」到「深思熟虑」：GUI 智能体面临的挑战

想象一下，你让 AI Agent 帮你完成一个多步骤的手机操作，比如「预订明天下午去北京的高铁票」。一个简单的「反应行动」式 Agent 可能会按顺序点击它认为相关的按钮，但一旦遇到预期外的界面（如弹窗广告、加载失败），就容易卡壳或出错，因为它缺乏「规划」和「反思」的能力。

为了让 GUI 智能体更可靠、更智能地完成复杂任务，它们需要具备深思熟虑的推理能力。这意味着智能体的行为模式需要从简单的「感知 → 行动」转变为更高级的「感知 → 推理 → 行动」模式。这种模式要求智能体不仅能看懂界面，还要能：

理解任务意图：将高层指令分解为具体的执行步骤
进行空间推理：准确理解界面元素的布局和关系，定位目标
反思与纠错：识别并从错误中恢复，调整策略

Actor2Reasoner 框架：两步走，打造深思熟虑的推理者

为了实现这一目标，研究团队提出了 Actor2Reasoner 框架，一个以推理为核心的两阶段训练方法，旨在逐步将 GUI 智能体从「反应式行动者」培养成「深思熟虑的推理者」。

^{图：Actor2Reasoner 框架概览}

第一阶段：推理注入（Reasoning Injection）—— 打下推理基础

此阶段的核心目标是完成从「行动者」到「基础推理者」的关键转变。研究者们采用了空间推理蒸馏（Spatial Reasoning Distillation）技术。他们首先识别出模型在哪些交互步骤中容易因缺乏推理而出错（称之为「推理瓶颈样本」），然后利用能力更强的「教师模型」生成带有明确空间推理步骤的高质量执行轨迹。

通过在这些包含显式推理过程的数据上进行监督微调（SFT），引导基础模型学习在生成动作前，先进行必要的逻辑思考，特别是整合 GUI 视觉空间信息的思考。这一步打破了「感知 → 行动」的直接链路，建立了「感知 → 推理 → 行动」的基础模式。

第二阶段：深思熟虑增强（Deliberation Enhancement）—— 迈向高级推理

在第一阶段的基础上，此阶段利用强化学习（RL）进一步提升模型的「深思熟虑」能力，重点打磨规划和反思两大核心能力。研究者们创新性地引入了两种方法：

目标引导：为了增强智能体「向前看」的规划和任务分解能力，研究者们设计了奖励机制，鼓励模型在其推理过程中生成明确且准确的中间子目标。通过评估生成的子目标与真实子目标的对齐程度，为模型的规划能力提供有效的学习信号。

错误回溯：为了培养智能体「向后看」的反思和自我纠错能力，研究者们在 RL 训练中有针对性地构建了模拟错误状态或需要从错误中恢复的场景。例如，让模型学习在执行了错误动作后如何使用「返回」等操作进行「逃逸」，以及如何在「回到正轨」后重新评估并执行正确的动作。这种针对性的训练显著增强了模型的鲁棒性和适应性。

为了有效引导强化学习过程，研究者们还采用了一套专门适用于 GUI 多种任务场景的奖励函数，为智能体提供更佳的反馈。

InfiGUI-R1-3B：小参数，大能量

基于 Actor2Reasoner 框架，研究团队训练出了 InfiGUI-R1-3B 模型（基于 Qwen2.5-VL-3B-Instruct）。尽管只有 30 亿参数，InfiGUI-R1-3B 在多个关键基准测试中展现出了卓越的性能：

GUI 元素定位（Grounding）能力突出:

在跨平台（移动、桌面、网页）的 ScreenSpot 基准上，平均准确率达到 87.5%，在移动、桌面、Web 平台的文本和图标定位任务上全面领先，达到同等参数量模型中 SOTA 水平。

在更具挑战性、面向复杂高分屏桌面应用的 ScreenSpot-Pro 基准上，平均准确率达到 35.7%，性能比肩参数量更大且表现优异的 7B 模型（如 UI-TARS-7B），证明了其在复杂专业软件（例如 CAD、Office）界面上的指令定位准确性。

^{表：ScreenSpot 性能对比}

^{图：ScreenSpot-Pro 性能对比}

复杂任务执行（Trajectory）能力优异

在模拟真实安卓环境复杂任务的 AndroidControl 基准上（包含 Low 和 High 两个难度级别），成功率分别达到 92.1% 和 71.1%。这一成绩不仅超越了参数量相近的 SOTA 模型（如 UI-TARS-2B），甚至优于一些参数量远超自身的 7B 乃至 72B 模型（如 Aguvis-72B）。

^{表：AndroidControl 性能对比}

这些结果充分证明了 Actor2Reasoner 框架的有效性。通过系统性地注入和增强推理能力，特别是规划和反思能力，InfiGUI-R1-3B 以相对较小的模型规模，在 GUI 理解和复杂任务执行方面取得了领先或极具竞争力的表现。

结语

InfiGUI-R1 和 Actor2Reasoner 框架的提出，为开发更智能、更可靠的 GUI 自动化工具开辟了新的道路。它证明了通过精心设计的训练方法，即使是小规模的多模态模型，也能被赋予强大的规划、推理和反思能力，从而更好地理解和操作我们日常使用的图形界面，向着真正「能思考、会纠错」的 AI 助手迈出了坚实的一步。

]]>

动态列表

浙大&港理工等提出InfiGUI-R1：利用强化学习，让GUI智能体学会规划任务、反思错误

类别

资源

联系我们