原创 让你更懂AI的 2025-09-05 13:05 北京
从动态验证器到RL新范式,医疗AI的里程碑
近日,百川公开 1 万 6000 字的 M2 完整技术报告,几乎每一个训练过程、创新方法,以及背后的思考都毫不保留的详细阐述,这让关注大模型、后训练最前沿技术探索的从业者获得感满满。
接下来,本文将带你走进这份官方技术报告的核心细节,深度解读百川智能如何让 M2 走到今天。
近日,百川公开 1 万 6000 字的 M2 完整技术报告,几乎每一个训练过程、创新方法,以及背后的思考都毫不保留的详细阐述,这让关注大模型、后训练最前沿技术探索的从业者获得感满满。
接下来,本文将带你走进这份官方技术报告的核心细节,深度解读百川智能如何让 M2 走到今天。
报告地址:
https://arxiv.org/pdf/2509.02208
模型权重:
https://huggingface.co/baichuan-inc/Baichuan-M2-32B
核心突破:让AI“临床实习”的动态验证系统
在人工智能的世界里,真正的考验从来不在考场。题库可以刷分,但面对真实病人,答案往往没有唯一解。临床推理是一场信息不完全、充满不确定性的博弈:患者会隐瞒,症状会模糊,医生需要在有限的时间内做出风险权衡。
这正是医疗 AI 的“天堑”。
9 月,百川智能给出了他们的回答:Baichuan-M2。在全球最具挑战性的医疗评测 HealthBench Hard 上,M2 仅凭 32B 参数,硬是跨过了“32 分”这条分水岭——与 OpenAI GPT-5 一起,成为全球唯二做到这一点的模型。
要知道,另一边是动辄上百亿参数的巨兽;而 Baichuan-M2 用更小的身躯,迈过了大模型的天花板。这不仅是一次成绩单上的胜利,更是医疗 AI 范式的转折点:从“考场学霸”,变成“临床能手”。
可验证奖励的强化学习 (RLVR) 已在数学、编码等领域大显身手,这些领域中存在明确、可验证的评估指标。
然而,这一成功范式很难直接迁移到医疗领域,核心困难在于难以为复杂的临床诊疗过程构建一个有效的“验证环境”。这个难题源于医疗领域的独特性,传统的强化学习方法在这里遇到了瓶颈:
静态基准的局限性:现有的医疗 AI 评测大多依赖于静态的专业考试题库。模型在这些考试中取得高分,并不意味着它能在真实的临床工作中表现出色。因为真实诊疗充满了不确定性,而非有标准答案的考题。
临床过程的复杂性:真实的医疗诊断是一个部分可观察、多轮交互的决策过程。医生需要通过多轮问询、检查来逐步收集信息、排除干扰、形成判断。这是一个动态的探索过程,是任何静态问答无法模拟的。
评估维度的多元性:对医生的评估远不止“诊断正确”这一个维度,还包括问诊逻辑、沟通技巧、共情能力、伦理考量以及治疗方案的合理性等。这些软性但至关重要的能力,无法通过简单的“答案匹配”来验证。
为了攻克这些难题,百川智能的技术搭建了一个大规模、高保真的“动态验证系统”,为 AI 模型量身打造了一个可以进行“临床实习”的虚拟环境。
验证系统整体设计如下:
这个系统主要包含两大创新组件:患者模拟器与临床评分标准生成器。
患者模拟器(Patient Simulator):
患者模拟器的核心设计在于更加全面地构造动态的患者背景信息。在真实诊疗场景中,人类医生在听取患者描述病情时,很容易分辨患者描述中的逻辑漏洞,从含混不清的表达中辨别出真实病因。
但是实际生活中,患者很难将自己的问题表述清楚。如果仅仅基于静态的单一的病例,模型很容易过拟合到单一的病例信息,无法处理真实场景的案例。
百川团队在今年 1 月份全行业首发了患者模拟器,而后对其进行了全面升级,使其能够模拟千差万别的患者、症状、表达,特别是包含错误噪声的表达,最大程度还原了真实医疗场景,给 AI 模型一个贴合实际场景的信息输入。
患者模拟器由三个主要模块组成:终止门、情感单元和事实单元。终止门根据预定义的触发器(例如,医生的诊断)确定对话是否得出结论。情感单元使用合成数据进行训练,获得与患者档案类似的输出,以模拟具有各种性格和社会文化背景的患者。事实单元,根据患者档案进行实时验证,以防止信息泄露和不一致。
情感单元和事实单元均通过大语言模型实现,使用快思考模型来快速确定终止条件和验证事实信息。这些基础单元打造了一个轻量化但是性能强大的患者模拟器。
临床评分标准生成器(Clinical Rubrics Generator):
在真实诊疗中,医生的决策并非简单的“对与错”,而是涉及诊断准确性、问诊逻辑、治疗方案合理性、沟通同理心和医学伦理等多维度的综合判断。
临床评分标准生成器旨在模拟资深医师的临床思维,能够根据当前的对话上下文,动态生成量化的、多维度的评估标准。这不仅让评估更贴近真实临床,也为模型优化提供了一个大规模、可监督的数据闭环。
核心的设计目标包括:
全面性:该系统不仅评估诊断准确性,还评估沟通质量,利用涵盖所有临床能力的多维可验证标准
可靠性:所有可验证标准均由经验丰富的临床医生严格验证,以确保符合专业标准和最佳实践
适应性:该系统会动态调整可验证标准,以考虑患者特定因素,包括个体特征、行为模式和沟通风格
为了实现这些预期目标,百川团队设计了包含三个核心环节的技术方案:
a) 提示收集与处理:为确保评估的真实性和全面性,团队从真实病历、权威知识库和复杂的合成场景中构建了一个覆盖广泛临床情境的高质量“考题集”。所有“考题”都经过了严格的数据处理流程,包括去重、筛选和多维度打分,以保证其临床价值和挑战性。
b) 评分标准构建:为了将复杂的临床能力转化为可量化的指标,团队采用了“人机协作”的模式。首先由大模型生成候选标准,再由内部临床专家进行筛选、定制,并根据重要性赋予 -10 到 10 的权重。这些经过专家校验的“种子数据”随后被用于大规模扩充,形成了一个既专业又多样化的评估标准库。
c) 评分标准生成器训练:为了在保证评估质量的同时控制成本,团队并未使用超大模型,而是训练了一个高效的专用模型来实时生成评分标准。该模型在包含医疗、数学、代码等多样的推理数据集上进行训练。
经由 GPT 4.1 评估,临床评分标准生成器与人类专家的判断一致性高达 92.7%,展示了标准生成器的强大效果。
多阶段强化学习算法有效提升医疗能力
除了构建创新的验证系统,百川团队还对模型的强化学习算法进行了优化,以实现更聪明、更真实的回复。整体的训练链路如下:
在常用的 GRPO 算法基础上,百川团队提出了如下的改进:
去掉 KL 散度约束项
非对称的 clipping 阈值
长度归一化损失
简化版的优势函数归一化过程
在评分标准驱动的优化过程中,模型往往会倾向于 “面面俱到”,这通常会导致回复冗余、推理时间延长,并增加用户的阅读负担。然而,医疗回复也需要足够详尽,以确保专业性,不可一味简化。因此,如何确保回复质量与精简程度成为一大难题。
对此,为在 “质量优先” 原则下逐步精简回复长度,百川团队引入了动态长度奖励机制。核心思路在于,只有当回复质量已达一定水平时,才鼓励模型生成更简洁的回复。
具体做法是设计了特别的长度奖励,对于正确程度排在前 20% 的输出,给予一个和长度成反比的奖励信号,鼓励模型答对问题的前提下尽可能言简意赅。具体的设计如下:
该方法优先考虑质量达标,而非一味追求效率优化,有效地避免了病态的“越短越好”行为,同时鼓励适当简洁且覆盖全面的输出。
不难看出,模型的分数基本不受到影响,同时模型的输出非常精简,不会无节制变长。
实际的医疗场景下,患者与医生之间会进行多轮交互,并非一次性的交流。因此,百川团队提出了一个专为临床应用定制的动态交互式强化学习框架。在该框架中,模型与患者模拟器进行多轮对话,持续交互,并由评分生成器进行实时评估与反馈,这极大地提升了模型在病史采集、关键信息提取和诊断决策方面的能力。
具体来说,模型与患者模拟器每轮交互后,会提取一段对话历史输入到评分标准生成器中,生成与当前上下文高度相关的评分标准集。
随后,这段提取的对话将作为模型下一次回复的上下文,模型的回复会根据动态生成的评分标准进行评估和强化学习。这形成了一个 “模拟 - 评估 - 优化” 的自适应闭环。
与仅依赖静态数据集的训练方法相比,这种对话与评分标准之间的动态交互能够使模型在信息不完整且存在噪声的临床环境中,持续与医生的推理模式保持对齐,显著提升模型在病史采集、关键线索挖掘和诊断决策等方面的能力,从而增强模型对更广泛、更真实的医患交互场景的泛化能力。
此外,考虑到患者模拟器仍可能引入噪声或偏差(如重复生成、对话过长或角色错位等),百川团队在训练过程中引入了严格的交互筛选机制,仅保留语义连贯且因果合理的对话片段。
通过动态的片段级采样进行训练,不仅能让模型持续接触不断变化的对话上下文,还能提高训练效率和稳定性:来自短片段的高信噪比密集反馈,有效缓解了累积的上下文误差和奖励泄露波动问题。类似设计,对医疗以外的其他领域,以及 Agent 系统的优化颇具参考价值。
又强又快:性能霸榜,推理优化
在具有挑战性的 HealthBench 任务上,32B 的 M2 模型,力压一众开源模型与闭源模型。
如图所示,M2 模型是唯一一个超过 60 分的模型,胜过 OpenAI 最新开源的 120B GPT-OSS 模型与 Deepseek 推出的 671B R1 模型。
对比更多的海内外闭源模型,M2 也是效果拔萃,尤其是具有挑战性的 Hard 子集上,M2 模型取了 34.7 的分数,显著高于第二名的 OpenAI o3 (31.6 分),与 GPT-5 是全世界唯二超过 32 分的两款模型。
此外,针对没有标准答案的挑战性中文医疗场景,百川团队聘请医疗专家对 M2 与 GPT-OSS 的输出进行人工评估。结果如下:
在诊断、治疗、安全等所有五个维度上,32B 的 M2 模型生成结果准确率均高于 60%,各项都优于 120B 的 GPT-OSS 模型。
在推理侧,百川团队使用模型量化与投机解码技术,显著降低部署成本,进而得以将 M2 模型部署到主流的 GeForce RTX 4090 消费级显卡,并在主流的框架上进行了适配。经过优化,在 4090 显卡上能支持最高 21133 的输出长度。
这些努力旨在降低实际部署的门槛,促进 AI 医疗的普及应用。
深度跨界团队:医疗领域最懂AI,AI领域最懂医疗
任何技术突破背后,都是人。Baichuan-M2 的成绩单,不只是算力和参数的比拼,更是团队长期积累的体现。据了解,百川智能的算法团队里有协和医院的医生,这意味着他们既深谙大模型训练的复杂性,也熟悉临床语境,敢于在最难的领域里走最硬的路。
事实上,AI 医疗已成为全球科技巨头关注的焦点。外媒报道指出,OpenAI 正在AI医疗应用的探索上投入大量人力、物力,希望借助大模型在临床决策和辅助诊断上取得突破。
相比之下,百川团队的动作更为坚决和前置:他们早在 2023 年就成立了专门的医疗团队,并陆续推出一系列面向真实场景的产品,为 M2 的发布打下了坚实的基础。凭借优秀的人才储备与深厚的技术积累,百川真正做到了“医疗领域最懂AI,AI领域最懂医疗”。
团队并没有停留在“把通用模型搬到医疗场景”的思路,而是从奖励函数、验证系统到推理优化,逐一为医疗语境量身定制,让模型真正具备“临床”的能力。
更难能可贵的是,百川智能选择了 100% 开源。这种大模型与医疗的跨界深度结合,成了 Baichuan-M2 能够脱颖而出的关键。在医疗 AI 这样敏感又高门槛的领域,这意味着他们不仅在做技术突破者,更在做生态的推动者。对行业而言,这是一份勇气,也是一种格局。
结语
Baichuan-M2 的意义,远不止是一份漂亮的分数。它让世界看到,大模型的未来并不只属于算力和规模的军备竞赛,更属于那些能够真正走进临床、解决实际问题的范式创新。
通过动态验证系统,AI 开始像实习医生一样学会“追问、澄清、总结和决策;通过强化学习的迭代,它学会在复杂场景中给出简洁而可靠的答案;通过推理优化,它第一次真正走下算力高墙,进入消费级显卡的可及范围。
这背后展现出的,不只是技术的精巧设计,更是一种态度:医疗 AI 不能只在论文和榜单上闪光,它必须以更低的成本、更强的可靠性,真正落到临床、服务病人。
于是,一个新的故事正在发生:医疗 AI 的叙事正在悄然转变——从考场学霸,变成临床能手;从闭门造车,走向开放共建。
而这场转变,才刚刚开始。让我们持续关注,希望 AI 医疗普惠大众的那一天早日到来!
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·