ToolsAi

原创让你更懂AI的 2025-10-06 20:04 北京

不止能跑通，更能跑对

在科学研究越来越依靠标准化精密计算手段的今天，用智能体技术来自动化加速科研的潜力让人心潮澎湃。但在现实使用中，无论是 Cursor 还是 Codex，这类智能体多作为辅助工具存在：每推进几步，仍需人工介入验证或调整。

那么，一旦把流程完全交由智能体自动化，怎样确保它足够可信，能独立完成需要精密判断的科研工作？

这是一个宏大而开放的问题。我们近期完成的，倾注一年半心血的科研项目，就是从一个具体的科学场景切入，初步探索答案。我们着眼于基因表达分析这个任务，并通过它挖掘在控制多种混淆因子后仍然稳定的基因—表型关联。

具体来说，从原始的转录组数据和半结构化的临床信息出发，自动完成数据选择、预处理与统计分析，识别与目标性状显著相关的基因集合，并支持条件分析以剔除年龄、性别、共病等变量的干扰。

之所以选择它，一方面因为基因-表型关联对于疾病易感、药物反应与患者预后等问题至关重要；另一方面因为它足够难：平台异构、命名演化、批次效应、样本量与维度的不匹配，以及隐匿的混淆因素，使这一任务既代表了生物医学数据分析的普遍挑战，也对智能体技术的规划、代码生成与错误恢复能力提出了实打实的要求。

本文将分三部分展开：任务难在哪里、我们的方法设计、核心实验结果与观察。

论文标题：

GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis

论文地址：

https://arxiv.org/abs/2507.21035

GitHub地址：

https://github.com/Liu-Hy/GenoMAS

▲ 图1（系统架构示意）：GenoMAS的多智能体协作框架。各角色通过带类型的消息协议进行协作，形成端到端的有序闭环。

为什么自动化转录组分析这么难？

在开始接到这个课题的很长一段时间里，我们是一筹莫展的。考虑混淆后的基因-表型关联绝大部分是未知的，无法在现有文献中验证。

在研发这样的智能体之前，为了评估它的性能好坏，我们需要有一套标准。于是想到，如果有一个数据集收集了人类专家按照最佳实践分析数据得到的高质量结果，与之对比就能判断自动化方法的优劣。

我们首先找到 CMU 的一位计算生物学教授，邀请她加入这个课题，希望能组织她教授的一门研究生课上的学生来共同打造这个基准数据集。在一次视频会议里，我展示了这个任务需要的分析流程后，她摇了摇头，说这个太专业化了（specialized），作为课程项目来说对学生的挑战过大。

我们只好在校内组织一个团队来建造这个数据集。我们很快就发现那个教授说得没错，我们发现甚至网上的样例代码都不容易搜到，找到的寥寥几个有用的例子都是基于 R 的。

于是我们这些 CS 背景的人通过看书、看网课，请教生物专家，恶补这方面的知识，一边召集团队，等了很久才在本校凑齐一个有足够计算生物背景的队伍，来建这个数据集。

基准数据集搭建完成后，我们开始研发智能体。我们先试了当时最强的大模型和最先进的智能体。那会还是 GPT-4 时代，不出所料，所有方法和模型都无法生成代码来跑通从原始数据到分析结果的全流程，更不用说准确率了。

随着大模型能力的飞速提升，从 Claude Sonnet 4 开始，代码跑通已经不成问题了。可是，当我们测试现有的先进智能体时，发现它们仍然经常犯隐蔽而严重的错误，导致整个分析得到的结果科学上无效（论文附录 A 有详细的分析和例子）。

自动化方法在这里遇到的困难，植根于大模型自身的特点。首先，作为统计模型，它完成任务的表现高度依赖于任务相关互联网数据的高频性。它在众多学科展现出的强大能力，也源于互联网上大量的教材、习题等语料。

除了解数学题、算法题等相对容易靠强化学习后训练提升的领域以外，真实世界大部分专业性和开放性强的任务中，大模型都会面临分布外泛化的严峻挑战。如果任务足够专业化，就像一个优秀的应届毕业生到了公司里需要从头接受培训才能上手的任务，大模型往往也难以正确完成。

其次，大模型把所有信息以字符串的形式一股脑输入 attention 处理，这难以应对需要从若干个几十至几百兆的文件中整合数据、分析判断的基因表达分析任务。

当上下文窗口过长，往往会淹没重要信息，严重降低大模型的任务表现。人的“工作记忆”远不如大模型的上下文窗口，但人会主动探索，会使用工具，也会选择对哪些输入信息进行思维深加工。一位熟练的生信专家往往只需在关键节点从大型文件中定位并阅读几十行关键信息，就能高质量完成整个分析任务。

设计理念：可信的科学自动化，需要结合智能体和工作流的优势

有了上面的思考，我们的目标就很明晰了：在智能体层面弥补大模型的不足，一是给它足够的领域知识帮它完成“入行培训”，规范它行为的同时，让它可以在此基础上，在任务中自己积累经验；二是在规划模块的层面上让它自主探索环境，选择性地处理和整合数据。

探索就不可避免会犯错，所以我们要让它能即时从错误中恢复，避免随着上下文积累变长后加剧的”自我条件”效应走入死胡同。我们在设计智能体的过程中，阶段性地拿我们的基准数据集评估性能，不断迭代，力求研发一个可信的全自动化基因表达分析任务的智能体。

这就引发一个问题：什么是可信的科学自动化？也许很多人认为，现在的大模型已经足够强大和智慧，潜力无限。我们只要进一步提升它的 agentic 能力，再让它学会使用外部工具，那么不久的将来，它就能可信地自动进行科研工作。

虽然这些是非常重要且激动人心的技术路线，但我们认为，即使大模型可以变得非常强大智慧，也不一定“可信”。这是因为，对于科学或者说科研，大家并没有一致认同的标准答案。

一个学科里会有观点相左的不同学派，不同实验室对于科研的理解和规则也会有差异。在执行重要任务时，这些差异会体现在操作细则的各个方面，而且越是重要的任务，越缺少妥协的余地。

倘若向全世界最强的智能体丢一句简单的命令，让它根据自己的想法全自动做科研，然后直接把结果端给用户，对于严肃的科研工作者来说恐怕是难以接受的。

所以我们认为，可信的科学自动化，首先要让用户选择自己信任的 guidelines。这个 guidelines 也许只是一个具体任务的简单指示，也许是复杂得多的一组文件。

对于要进行的任务来说，这个 guidelines 要包含足够的文本信息让用户确信自己认同它将在这个任务中体现的科研风格、学派立场等等，于是用户在充分知情与认同的前提下，对产出的结果承担信任与责任。

而 agent 这一侧，则需要确保按照用户信任的 guidelines 工作，同时也要对实际执行中的各种问题自主地探索解决方案，灵活处理，避免像人为编排的工作流那样僵化。因此，一个可信的智能体是需要结合 agent 和 workflow 优势的。

当然，以上更多是原则性的思考。由于大模型的概率本质，我们无法确保智能体 100% 的遵守 guidelines，而是通过智能体的编排，在大模型指令遵守和减少幻觉方面进展的基础上再进一步。

方法设计：把可控的指南与自主的智能体放到一起

沿着“可信”这条主线，我们没有试图让一个模型包打天下，而是把“如何做事”先写清楚，再把足够的自主性交给执行者。

具体来说，GenoMAS 把用户认可的指南看作一套可编辑的有向无环图，并把其中的关键动作切分为语义自洽、可原子执行的 Action Unit。每一个 Action Unit 都像是一段可复核的实验步骤，既能被独立审阅，也能在必要时回滚与替换。

编程智能体不会被迫一条路走到黑，而是在每一步做出“前进、修订、跳过或回退”的选择：当早期判断在下游暴露出矛盾，就把代码与状态一起拉回到合适的分叉点，从替代路径继续推进。

这套机制并不是为了“多一个花哨层”，而是为了把可控与自适应压在同一个框架里。系统中的六个角色分工明确、彼此制衡：PI 负责统筹调度；两位数据工程师分别面向 GEO 与 TCGA 的数据预处理；统计学家承担回归建模与显著基因识别；代码审阅者与领域专家提供质量控制与生物学判断。

角色之间通过带类型的消息协议沟通，所有请求与响应都有据可查，避免跨步与遗漏。在代码层面，我们坚持“编写—审阅—修订”的闭环：审阅者在隔离上下文的前提下检查可执行性与对指南的遵循，必要时给出明确的否决与修改建议；编程智能体据此整合历史诊断信息完成修订，直到通过或达到上限。

涉及生物学语义的节点（如临床特征抽取与基因符号映射）则由领域专家在聚焦上下文中给出判断，并直接以可执行的形式落地。

为了应对真实数据的规模与异质性，我们在工程上补足了“跑得稳”的基本盘：并行与断点续跑、缓存与资源监控、超时保护与失败回收；通过“代码记忆”，系统把已通过审阅的片段按 Action Unit 类型索引与重用，在保持稳健的同时逐步积累经验，减少无谓重复。

为了保证可复现性与一致性，我们将基因同义词库与基因—表型关联资源本地化并版本化管理。值得一提的是，我们采用“异质模型”的团队配置：擅长代码代理的模型承担编程主力，更强的推理模型主导规划与审阅，而在生物知识上表现突出的模型提供领域判断。

这种认知多样性的组织方式，在复杂任务上往往更稳健，也更接近真实的跨学科协作。

▲ 图2（编程智能体机制）：单个编程智能体的规划、代码记忆与自我纠错流程示意。

实验与结果：在GenoTEX上的系统检验

如果说前面对“可信”的讨论还停留在方法学层面，那么 GenoTEX 基准数据集提供了一个足够严苛的现实场景来检验它：913 个真实数据集、132 个表型、共 1,384 个基因—表型问题，从“数据选择—数据预处理—统计分析”三段闭环评估。

这些表型涵盖了从重大常见疾病到具有代表性的罕见疾病，以及身高和骨密度等身体特征，具备明确的生物学与临床相关性。

我们在预处理中同时考察结构与数值的一致性（属性交并系数 AJ、样本交并系数 SJ 与复合相似相关 CSC=AJ×SJ×相关系数均值），在统计分析阶段考察 AUROC、Precision/Recall/F1 与 GSEA，并且记录端到端成功率、时间与成本，避免只盯住“分数”的单一维度。

结果显示，GenoMAS 在数据预处理上取得 89.13% 的 CSC，在显著基因识别上取得 60.48% 的 F1，较此前最优方法分别提升 10.61% 与 16.85%；端到端执行成功率达到 98.78%，同时将 API 成本降低约 44.7%。

这些数字并非只是“更高一些”的改良，而是说明把“可复核指南 + 自主执行 + 严格审阅”组织在一起，确实能在真实复杂度面前站稳脚跟。

进一步的对照显示，异构（多模型协作）配置在保持可控性的同时带来额外收益：识别能力更强、成本更低。相反，通用工具集成更丰富的生物医学智能体并未在此任务占优，并不是“模型不够强”，而是任务强调“遵循可复核指南”的受控执行与对边界情形的稳健处理，而非开放域下的完全自主。

▲ 图3（主结果对比）：GenoMAS 在 GenoTEX 上的端到端性能对比（F1 提升 16.85%，AUROC 提升 0.17，API 成本降低约 44.7%）。

进一步分析：瓶颈、消融与系统行为

把链路拆开看，早期误差的“放大效应”最为直观：数据集筛选本身并不困难，但一旦起步偏离，后续每一步都会为此付出代价。

预处理阶段呈现出鲜明的分化：在表达矩阵的处理上，系统能够稳定达到高一致性；而在临床特征抽取上，受制于半结构化文本、命名异构与来源不一致，CSC 显著偏低，这是当前主要瓶颈。

换句话说，难点不在“数值归一化”这样的常规工程，而在于如何把真实世界的临床语义稳稳地落到结构化变量上。

统计分析的对照实验给了我们一个更清晰的参照系：当直接使用专家预处理的数据时，系统的 F1 可达到约 95%；若去掉批次效应校正，则显著下降。

这一结果把“难题的坐标”钉在了恰当的位置——问题并不在于选择何种回归模型，而在于能否可靠地处理混淆，尤其是批次效应与协变量控制。面向这一点，我们在架构层面把“引导式规划—领域判断—多轮审阅”绑在一起，目的就是把这些易被忽略却决定有效性的步骤牢牢嵌入执行链路。

消融结果进一步印证了这种设计的必要性：去掉情境感知的引导式规划、领域专家或多轮审阅，都会带来明显退化；把审阅轮数限制为一轮，“看似笨重”的迭代在长链路里却是刚需。

此外，我们设置了“零样本、不读数据”的对照，AUROC 仅约 0.56，强调了结构化数据处理与领域推理的不可替代性。

从系统行为看，“代码记忆”在前期迅速爬升至约 65% 的复用率，节省了可观的时间；消息流量集中在规划与校验，PI 低频调度、编程与顾问高频互动的模式与真实跨学科团队相似。

▲ 图4（合作模式示意）：智能体通信网络与消息类型分布。数据工程师（含 GEO/TCGA）承担多数交互，PI 低频调度，规划请求占比最高，体现“引导式规划 + 多轮审阅”的主轴。

在一个代表性的 20 个问题会话中，数据工程师角色主导过半的信息交互，统计学家负责分析阶段的关键回合；PI 仅收发少量消息用于编排，体现编程智能体的高度自治。规划请求/响应居首，其次是代码校验请求；低频的“需要修订”提示引导式规划与多轮顾问机制能前置性地防错，从而推高我们观测到的约 98.78% 的端到端成功率。

这一通信结构与角色分工，本质上是在“集中执行 + 分布式专长”之间找到平衡：让流程有主轴，但在边界情形上保留适配空间。