原创 让你更懂AI的 2025-10-05 20:12 北京
科研副驾驶,真的登场了
数学建模,是科学问题从“复杂现实”走向“可计算抽象”的桥梁。它需要严密的逻辑、深厚的知识与大量的推理——这正是人类智慧的堡垒。
而如今,来自香港科技大学(广州)的研究团队用 MM-Agent 敲开了这道门:它让大语言模型真正具备建模思维,能像人类一样完成从假设、求解到报告撰写的全过程。
更令人惊讶的是,这项工作在 NeurIPS 2025 发表的同时,还在 MCM/ICM 国际数学建模竞赛中验证了实力,帮助本科生团队斩获 F 奖、跻身全球前 2%。
数学建模,是科学问题从“复杂现实”走向“可计算抽象”的桥梁。它需要严密的逻辑、深厚的知识与大量的推理——这正是人类智慧的堡垒。
而如今,来自香港科技大学(广州)的研究团队用 MM-Agent 敲开了这道门:它让大语言模型真正具备建模思维,能像人类一样完成从假设、求解到报告撰写的全过程。
更令人惊讶的是,这项工作在 NeurIPS 2025 发表的同时,还在 MCM/ICM 国际数学建模竞赛中验证了实力,帮助本科生团队斩获 F 奖、跻身全球前 2%。
数学建模,到底是啥?
如果把科研和工程问题比作一团乱麻,数学建模就是那双“巧手”,能把问题拆开、抽象、转化成数学公式,再通过计算机求解出答案。它广泛应用在疫情防控、能源预测、交通优化、金融分析等领域,是科学与工程的秘密武器。
但是,这活儿可不简单。传统的数学建模需要大量的分析、假设、推理和计算,对学生和研究人员来说,既费脑力又费时间。
AI当“建模助手”?
大语言模型(LLM)会写代码、会推理,但能不能像人类一样做完整的数学建模?
答案是:之前不太行。现有的大模型常常漏掉关键假设,或者给出“看起来很对,实际没用”的方案。
于是,我们提出了 MM-Agent ——一个能把大模型变成“建模副驾驶”的新框架!
它能像一位数学建模专家一样:
读懂问题背景
设计合理假设
选择合适方法
自动写代码跑实验
生成完整的建模报告
论文题目:
MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem
论文链接:
https://arxiv.org/abs/2505.14148
代码链接:
https://github.com/usail-hkust/LLM-MM-Agent
Demo链接:
https://huggingface.co/spaces/MathematicalModelingAgent/MathematicalModelingAgent
真金白银的考验:美赛F奖
光说不练假把式。为了检验 MM-Agent 的实力,我们把它带上了世界上规模最大的建模赛事——美国大学生数学建模竞赛(MCM/ICM 2025)。
结果?震惊了所有人:
MM-Agent 辅助的两支本科生队伍,成功拿下了 Finalist 奖(F 奖)
这意味着他们在 27,456 支全球参赛队伍中闯进前 2.0%!
要知道,美赛可不是“背答案”的游戏,每年的赛题都是全新、开放、复杂的真实问题。
这不仅是对学生的加持,更是 AI 真正走向“科研副驾驶”的一次突破。
背后的秘密武器
为什么 MM-Agent 能做到?秘诀在于它的“三大杀手锏”,并且已经被 NeurIPS 2025 接收。
这不是一场偶然的成功,而是一次系统性的方法创新。团队在设计之初,就意识到让大模型“像人一样做建模”并非靠算力堆砌,而要让它真正理解建模背后的逻辑与结构。
于是,他们从三个关键维度切入:知识、推理、执行。
分别打造出 HMML 建模知识库、Actor–Critic 优化机制和 MLE-Solver 自动求解引擎——这三者共同构成了 MM-Agent 的“智能三角”,也是它能够在真实建模场景中完成从读题、分析到报告生成的根本原因。
1. 建模知识库HMML(Hierarchical Mathematical Modeling Library)
一个分层式的“建模百科全书”,覆盖 17 个子领域、98 种建模方法,从线性规划、蒙特卡洛模拟到层次分析法,应有尽有。
每个方法都带有核心思想 + 典型应用场景(比如风险控制、资源分配、预测优化),帮助 AI 在建模时做到按需检索、精准选型、灵活组合。
在 NeurIPS 2025 的评审中,这被认为是首次将专家级知识体系系统化嵌入 LLM 的建模流程。
▲ 图1. HMML分层结构示意图
上图展示了 HMML 的三层结构:从「领域(Domain)」到「子领域(Sub-domain)」再到「方法节点(Method Node)」。每个节点都包含核心思想与典型应用,支持模型按语义相似度自动匹配合适的建模策略。
此外,论文中进一步指出,HMML 并非静态数据库,而是一种可检索的分层知识体系。
系统会根据任务语义在多层结构中进行匹配与筛选,从而在领域、子领域与方法层之间形成上下文关联的建模决策路径。
这意味着,AI 不仅能查到“怎么建模”,还能理解“为什么这么建”。
2. Actor–Critic优化机制
建模不是“一步到位”,而是不断假设、检验和修正的过程。
MM-Agent 借鉴强化学习里的 Actor–Critic 框架:
Actor 先提出一个建模方案;
Critic 再“挑刺”,指出不合理之处(如约束条件缺失、假设过于理想化);
Actor 根据反馈修正方案。
这种“生成–批评–修正”的循环,让 AI 能逼近科学严谨的结果。
在 NeurIPS 2025 的实验报告中,该机制被证明显著提升了建模的分析深度与科学性。
▲ 图2. MM-Agent总体框架
系统整体流程包括问题分析(Problem Analysis)、数学建模(Modeling)、求解执行(Solving)与报告生成(Reporting)。其中 Actor–Critic 优化机制贯穿建模核心环节,让 AI 学会“提出—质疑—修正”的科学循环。
更值得注意的是,论文作者在 Ablation Study(消融实验)中验证了该机制的作用:去除 Actor–Critic 模块后,模型在 Analysis Evaluation(分析深度)、Modeling Rigorousness(建模严谨性)等指标上显著下降。
▲ 图3. 消融实验结果
对比完整版本与删减版本的性能,移除 HMML 或 Actor–Critic 模块都会导致整体建模质量下降,说明两者是 MM-Agent 保持科学性的关键支柱。
3. 高效的自动求解引擎MLE-Solver
确定模型后,MM-Agent 会自动写代码并运行实验。如果报错,系统能自动调试和修复,直至得到正确结果。
实测显示,它能在 15 分钟 + 不到 1 美元的成本下,完成从问题分析到报告生成的全流程。
论文进一步揭示,MLE-Solver 使用一种自我演化式求解循环:系统自动生成初始代码并运行,若报错,会提取错误日志并在下一轮修复。整个过程最多迭代数次,直到结果稳定。
在不同硬件环境下(如 GPT-4o 与 DeepSeek-R1-671B),其平均耗时分别为 906 秒与 7529 秒,成本仅为 $0.88 和 $0.56。相比人类专家团队,MM-Agent 在整体建模得分上平均提升 11.88%,以更低成本完成近乎同等质量的分析与报告生成。
▲ MLE-Solver执行性能与成本
未来想象:人人都有一个“建模AI副驾驶”
想象一下:
医生用它来设计疾病预测模型;
城市规划师用它来优化交通系统;
学生用它来参加竞赛,甚至写科研论文。
MM-Agent 不仅仅是科研工具,它正在让 AI 真正变成人类解决复杂问题的伙伴。
代码与Demo已全面开源
想体验一下这个能帮学生夺冠的建模 AI 吗?
代码地址:
https://github.com/usail-hkust/LLM-MM-Agent
Demo地址:
https://huggingface.co/spaces/MathematicalModelingAgent/MathematicalModelingAgent
一句话总结:MM-Agent 让 AI 不再只是“聊天高手”,而是能在国际大赛中与人类并肩作战的“建模副驾驶”。这不仅是学术突破,更可能改变未来科学研究和工程实践的方式。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·