
当前计算机使用智能体(CUA)的发展,主要依赖于大量昂贵的人工标注数据 。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力 。为了打破这一瓶颈,来自上海交通大学和香港中文大学的学者们提出了 SEAgent,一个全新的、无需任何人类干预,即可通过与环境交互来自主学习和进化的智能体框架。
SEAgent 的核心创新在于其闭环的自主进化框架、一个经过深度优化的评判模型,以及一套高效的 「专才 - 通才」 融合策略。

论文链接: https://arxiv.org/abs/2508.04700v1
代码链接: https://github.com/SunzeY/SEAgent
SEAgent 的核心:三位一体的自主进化框架

SEAgent 的自主进化能力,源于其内部三大核心组件的协同工作,形成了一个可持续的、自我驱动的学习闭环。
课程生成器 (Curriculum Generator):扮演 「导师」 的角色。它能根据智能体当前的能力,自动生成难度循序渐进的探索任务 。它还会维护并更新一本 「软件指南」,记录智能体在探索中发现的新功能,从而提出更具多样性和挑战性的新任务。
执行者 - 智能体 (Actor-CUA):即智能体本身,它根据 「导师」生成的任务,在软件环境中进行实际操作和探索。
评判者 - 世界状态模型 (World State Model):作为框架的 「裁判」,它负责评估智能体执行任务的每一步表现 。它的精准评判,为智能体的学习提供了最关键的反馈信号,并帮助 「导师」 了解智能体的最新能力,从而形成一个完整的进化闭环。

图 3:自动课程学习构建细节
构建更好的 「裁判」:世界状态模型的优化之路
一个精准的 「裁判」 是自主进化的基石。我们发现,现有的开源大视觉语言模型在评判智能体长序列操作时能力不足,当输入过多的历史截图时,其判断准确率甚至会下降 。为了解决这一核心问题,我们着手构建了一个更强大的评判模型 ——
世界状态模型 (World State Model)。
我们的优化策略主要有两点:
革新评判范式:我们摒弃了只看最终结果的传统方式,而是让模型学会分析整个交互轨迹 。通过对所有历史状态进行细致的、一步步的推理,模型能够更精准地捕捉到关键的成败节点,从而提供高质量的步骤级奖励信号。
高质量数据蒸馏:我们使用 GPT-4o 在 OSWorld 的 Chrome 环境中生成了包含 860 条高质量评判的轨迹数据,并利用这些数据对 Qwen2.5-VL-7B 模型进行微调 。同时,我们创新性地引入了截图变化描述(Screenshot Change Description)的协同训练任务,这显著增强了模型对 GUI 微小变化的感知能力,进一步提升了评判的准确性 。
经过优化,我们的世界状态模型在性能上大幅缩小了与 GPT-4o 等商业模型的差距,为 SEAgent 框架提供了可靠、稳定的评判能力 。

图 4:算法流程伪代码
「专才 - 通才」 融合:超越个体极限的训练策略
在单个智能体的进化之上,我们探索了如何构建一个能操作多种软件的 「通才」 模型。我们发现,直接在多软件环境中训练一个 「通才」,效果并不理想,其性能甚至不如在单一软件上训练的 「专才」 模型 。
为此,我们提出了一套高效的 「专才到通才」(Specialist-to-Generalist)融合策略。该策略分为三步:
培养专才:首先,我们使用 SEAgent 框架,在五款不同的专业软件上分别训练出五个独立的 「专才」 智能体。
知识蒸馏:然后,我们收集这些 「专才」 模型执行成功任务的 3500 条轨迹数据,通过监督式微调(SFT)的方式,将它们的综合知识 「蒸馏」 到一个全新的通用模型中。
通才进化:最后,将这个已经具备了良好基础的 「通才」 模型,再次置于 SEAgent 框架中,在所有五种软件上进行最终的强化学习和进化。

图 5:主要实验结果与多轮训练提升
实验结果证明,这一策略取得了巨大的成功。最终得到的 「通才」 智能体,其综合成功率达到了 34.5%,不仅远超直接训练的通才模型(30.6%),甚至超越了所有 「专才」 模型的性能总和(32.2%),展示了 「先专后通,融合进化」 的强大潜力。
系统赋能与实证
严谨的消融实验证明了这套算法设计的必要性。结果显示,高质量的 世界状态模型 是有效学习的前提;基于探索的 强化学习(GRPO) 显著优于单纯模仿;而能够从错误中学习的 对抗性模仿 机制则带来了关键的性能提升。
这套核心算法被置于一个更大的系统框架中,由 课程生成器 提供循序渐进的任务,并通过 「从专家到通才」 的策略,将多个单一软件的 「专家」能力融合成一个更强大的 「通才」 模型。最终,SEAgent 在 OSWorld 基准测试中取得了显著的性能飞跃,将基线模型的成功率大幅提升,充分验证了其算法框架的先进性与有效性。
本文第一作者是上海交通大学和上海人工智能实验室的联培博士生孙泽一,在 CVPR, ICCV, NeurIPS 上发表多篇论文,Google scholar citation 400 多次,目前的研究的兴趣是 GUI-Agent,多模态学习和强化学习。
]]>