动态列表

  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道

NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%

原创 让你更懂AI的 2025-10-05 20:12 北京

科研副驾驶,真的登场了

图片

数学建模,是科学问题从“复杂现实”走向“可计算抽象”的桥梁。它需要严密的逻辑、深厚的知识与大量的推理——这正是人类智慧的堡垒。

而如今,来自香港科技大学(广州)的研究团队用 MM-Agent 敲开了这道门:它让大语言模型真正具备建模思维,能像人类一样完成从假设、求解到报告撰写的全过程。

更令人惊讶的是,这项工作在 NeurIPS 2025 发表的同时,还在 MCM/ICM 国际数学建模竞赛中验证了实力,帮助本科生团队斩获 F 奖、跻身全球前 2%。

数学建模,到底是啥?

如果把科研和工程问题比作一团乱麻,数学建模就是那双“巧手”,能把问题拆开、抽象、转化成数学公式,再通过计算机求解出答案。它广泛应用在疫情防控、能源预测、交通优化、金融分析等领域,是科学与工程的秘密武器。

但是,这活儿可不简单。传统的数学建模需要大量的分析、假设、推理和计算,对学生和研究人员来说,既费脑力又费时间。

AI当“建模助手”?

大语言模型(LLM)会写代码、会推理,但能不能像人类一样做完整的数学建模

答案是:之前不太行。现有的大模型常常漏掉关键假设,或者给出“看起来很对,实际没用”的方案。

于是,我们提出了 MM-Agent ——一个能把大模型变成“建模副驾驶”的新框架!

它能像一位数学建模专家一样:

  • 读懂问题背景

  • 设计合理假设

  • 选择合适方法

  • 自动写代码跑实验

  • 生成完整的建模报告

论文题目:

MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem

论文链接:

https://arxiv.org/abs/2505.14148

代码链接:

https://github.com/usail-hkust/LLM-MM-Agent

Demo链接:

https://huggingface.co/spaces/MathematicalModelingAgent/MathematicalModelingAgent

真金白银的考验:美赛F奖

光说不练假把式。为了检验 MM-Agent 的实力,我们把它带上了世界上规模最大的建模赛事——美国大学生数学建模竞赛(MCM/ICM 2025)

结果?震惊了所有人:

MM-Agent 辅助的两支本科生队伍,成功拿下了 Finalist 奖(F 奖)

这意味着他们在 27,456 支全球参赛队伍中闯进前 2.0%

要知道,美赛可不是“背答案”的游戏,每年的赛题都是全新、开放、复杂的真实问题。

这不仅是对学生的加持,更是 AI 真正走向“科研副驾驶”的一次突破。

背后的秘密武器

为什么 MM-Agent 能做到?秘诀在于它的“三大杀手锏”,并且已经被 NeurIPS 2025 接收。

这不是一场偶然的成功,而是一次系统性的方法创新。团队在设计之初,就意识到让大模型“像人一样做建模”并非靠算力堆砌,而要让它真正理解建模背后的逻辑与结构。

于是,他们从三个关键维度切入:知识、推理、执行

分别打造出 HMML 建模知识库Actor–Critic 优化机制MLE-Solver 自动求解引擎——这三者共同构成了 MM-Agent 的“智能三角”,也是它能够在真实建模场景中完成从读题、分析到报告生成的根本原因。

1. 建模知识库HMML(Hierarchical Mathematical Modeling Library)

一个分层式的“建模百科全书”,覆盖 17 个子领域98 种建模方法,从线性规划、蒙特卡洛模拟到层次分析法,应有尽有。

每个方法都带有核心思想 + 典型应用场景(比如风险控制、资源分配、预测优化),帮助 AI 在建模时做到按需检索、精准选型、灵活组合

在 NeurIPS 2025 的评审中,这被认为是首次将专家级知识体系系统化嵌入 LLM 的建模流程。

▲ 图1. HMML分层结构示意图

上图展示了 HMML 的三层结构:从「领域(Domain)」到「子领域(Sub-domain)」再到「方法节点(Method Node)」。每个节点都包含核心思想与典型应用,支持模型按语义相似度自动匹配合适的建模策略。

此外,论文中进一步指出,HMML 并非静态数据库,而是一种可检索的分层知识体系。

系统会根据任务语义在多层结构中进行匹配与筛选,从而在领域、子领域与方法层之间形成上下文关联的建模决策路径。

这意味着,AI 不仅能查到“怎么建模”,还能理解“为什么这么建”。

2. Actor–Critic优化机制

建模不是“一步到位”,而是不断假设、检验和修正的过程。

MM-Agent 借鉴强化学习里的 Actor–Critic 框架

  • Actor 先提出一个建模方案;

  • Critic 再“挑刺”,指出不合理之处(如约束条件缺失、假设过于理想化);

  • Actor 根据反馈修正方案。

这种“生成–批评–修正”的循环,让 AI 能逼近科学严谨的结果。

在 NeurIPS 2025 的实验报告中,该机制被证明显著提升了建模的析深度与科学性

▲ 图2. MM-Agent总体框架

系统整体流程包括问题分析(Problem Analysis)、数学建模(Modeling)、求解执行(Solving)与报告生成(Reporting)。其中 Actor–Critic 优化机制贯穿建模核心环节,让 AI 学会“提出—质疑—修正”的科学循环。

更值得注意的是,论文作者在 Ablation Study(消融实验)中验证了该机制的作用:去除 Actor–Critic 模块后,模型在 Analysis Evaluation(分析深度)、Modeling Rigorousness(建模严谨性)等指标上显著下降。

▲ 图3. 消融实验结果

对比完整版本与删减版本的性能,移除 HMML 或 Actor–Critic 模块都会导致整体建模质量下降,说明两者是 MM-Agent 保持科学性的关键支柱。

3. 高效的自动求解引擎MLE-Solver

确定模型后,MM-Agent 会自动写代码并运行实验。如果报错,系统能自动调试和修复,直至得到正确结果。

实测显示,它能在 15 分钟 + 不到 1 美元的成本下,完成从问题分析到报告生成的全流程。

论文进一步揭示,MLE-Solver 使用一种自我演化式求解循环:系统自动生成初始代码并运行,若报错,会提取错误日志并在下一轮修复。整个过程最多迭代数次,直到结果稳定。

在不同硬件环境下(如 GPT-4o 与 DeepSeek-R1-671B),其平均耗时分别为 906 秒与 7529 秒,成本仅为 $0.88 和 $0.56。相比人类专家团队,MM-Agent 在整体建模得分上平均提升 11.88%,以更低成本完成近乎同等质量的分析与报告生成。

MLE-Solver执行性能与成本

未来想象:人人都有一个“建模AI副驾驶”

想象一下:

  • 医生用它来设计疾病预测模型;

  • 城市规划师用它来优化交通系统;

  • 学生用它来参加竞赛,甚至写科研论文。

MM-Agent 不仅仅是科研工具,它正在让 AI 真正变成人类解决复杂问题的伙伴。

代码与Demo已全面开源

想体验一下这个能帮学生夺冠的建模 AI 吗?

代码地址:

https://github.com/usail-hkust/LLM-MM-Agent

Demo地址:

https://huggingface.co/spaces/MathematicalModelingAgent/MathematicalModelingAgent

一句话总结:MM-Agent 让 AI 不再只是“聊天高手”,而是能在国际大赛中与人类并肩作战的“建模副驾驶”。这不仅是学术突破,更可能改变未来科学研究和工程实践的方式。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们