新智元报道
新智元报道
【新智元导读】传统DFT计算太慢?SurFF来了!这个基础模型通过晶面生成、快速弛豫和Wulff构型,精准评估晶面可合成性与暴露度。SurFF相较于DFT实现了10⁵倍的加速,多源实验与文献验证一致率达73.1%。
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
在最新发表于Nature Computational Science的研究中,清华大学王笑楠团队提出了催化剂设计领域的全新基础模型SurFF。
在无需依赖昂贵实验或耗时DFT计算的前提下,这一模型可实现对金属间化合物表面暴露与形貌的高效、高精度预测,计算速度相比传统方法提升10⁵倍,为大规模催化剂筛选与理性设计提供了有力工具。
论文链接:https://www.nature.com/articles/s43588-025-00839-0
催化剂的性能与其表面结构息息相关,因为约90%的工业化学反应都发生在催化剂表面。因此,在设计新型催化剂时,准确预测哪些晶面能够稳定存在并暴露出来(即可合成性与暴露度),是评估其催化潜力的关键第一步。
然而,传统方法严重依赖高成本的实验表征(如XRD、TEM)或极其耗时的密度泛函理论(DFT)计算,这极大地限制了新材料的探索速度和规模,形成了催化剂研发的瓶颈。
为突破这一瓶颈,团队开发了SurFF模型,其核心优势在于创新的方法学与强大的性能。
亮点一:首创「三步走」预测框架,实现端到端高效预测。
SurFF的整体框架(图1)整合了三个自动化模块,可直接从晶体结构出发,高效地完成表面暴露预测:
晶面生成(Surface Generation):输入一个晶体结构,该模块会自动枚举出所有可能的、具有独特米勒指数的表面。
表面弛豫(Surface Relaxation):这是SurFF的核心加速引擎。利用深度学习驱动的机器学习力场(MLFF),对生成的每个表面进行快速且精准的结构弛豫,以计算其表面能。
Wulff构型(Wulff Construction):将计算出的各表面能与晶面朝向相结合,应用经典的Wulff理论,构建出该晶体在热力学平衡下的三维形貌,并由此精确得到各晶面的暴露面积比例。
亮点二:大数据与主动学习构建高质量表面数据库。
模型的强大性能离不开高质量数据的支撑。
团队采用数据高效的主动学习(Active Learning)策略,结合高通量DFT计算,构建了一个规模庞大的金属间化合物表面数据库。
规模庞大:该数据库涵盖了从「材料计划」(Materials Project)数据库中筛选出的多种金属晶体,最终包含12,553个独特的合金表面和344,200个DFT计算数据点。
数据高效:主动学习策略通过「不确定性+多样性」采样,在每一轮迭代中,优先挑选信息量最大的表面进行DFT计算,从而用最少的计算资源(总计155,612 CPU小时)构建出覆盖广泛化学空间的综合性数据库。
亮点三:先进的机器学习力场(MLFF)模型。
SurFF的力场模型采用了先进的3D等变图卷积神经网络(EquiformerV2),该模型能够高效学习原子间的相互作用,精准预测原子受力与体系能量,其精度达到了DFT水平。
1. SurFF三步走流程
图1 SurFF整体框架
通过晶面生成—快速弛豫—Wulff构型「三步走」,SurFF高效完成晶体表面暴露预测:
首先,系统依据输入的晶体结构自动生成所有独特晶面,好比从不同方位切割晶体以枚举各取向的晶面;
随后,这些表面交由深度学习驱动的机器学习力场(MLFF)进行快速弛豫(surface relaxation),得到每个表面的表面能,计算效率相比传统DFT提升约10⁵倍;
最后,SurFF基于Wulff构型(Wulff construction),将不同晶面的表面能组合求解,推断出稳定形貌及各晶面的暴露比例。
这一流程依托主动学习(Active Learning)构建的大规模表面能数据库与高精度MLFF作为支撑,使SurFF能在极短时间内完成上千种晶体的形貌预测与可合成性评估,为理性催化剂设计提供高效工具。
更具体地,SurFF将「形貌—暴露」问题拆解为:晶面生成→表面弛豫/表面能计算→Wulff构型。
关键在于以MLFF替代DFT做结构弛豫,从而在保持DFT级精度的同时实现数量级加速。
(1)晶面生成。
对输入晶体,系统枚举独特晶面,并为每个取向生成对称终止的薄片(slab)与对应的取向化晶胞(OUC);结构由PyMatGen自动生成与标准化。设计与评测覆盖至Miller指数≤2的晶面族,以兼顾代表性与计算可负担性。
(2)表面能与MLFF弛豫。
采用经验证的OUC+薄slab方案:slab厚度≥10Å、真空层≥15Å,并固定中间层原子以加速收敛。表面能按下式计算:
其中分母「2」表示slab的两侧表面。流程先在元素晶体上对标,再于金属间化合物体系进行收敛性与稳健性检查。
为获取高精度且具普适性的MLFF,模型采用三维等变图神经网络(如EquiformerV2)学习力与能,并以预测力/能驱动LBFGS几何优化:最多300步、单步最大位移0.03Å、收敛阈值max|F|<0.03eV·Å⁻¹。
论文同时给出DFT基线:VASP6.3/PAW-PBE/520eV截断能/Γ点中心k网格(OUC:35/a×35/b×35/c;slab:35/a×35/b×1),能量/力收敛阈值分别为1×10⁻⁶eV与0.02eV·Å⁻¹,并以R2SCAN做方法学对照。
(3)Wulff构型。
得到各取向表面能后,通过最小化
求得热力学平衡形貌与各晶面面积分数
,由此直接获得「哪些晶面更易暴露、暴露多少」的定量结论。文中进一步将暴露面积分为低/中/高三级,用作可合成性表征。
2. SurFF:DFT级精度与10⁵倍加速
在表面能预测、计算效率与可合成性判别中,SurFF实现DFT级精度与10⁵倍加速。
图3 模型性能验证
SurFF在精度、效率和可合成性预测方面均展现出优异表现。
首先,在表面能预测上,SurFF达到了与DFT相当的精度:在分布内测试集(ID)上,平均误差仅3.0meV/Ų;即使在分布外测试集(OOD),误差也保持在10.5meV/Ų的合理范围(图3a、d、f)。
其次,在计算效率上,SurFF相较于DFT实现了10⁵倍的加速:原本需要上万小时的计算,如今只需不到10小时即可完成(图3h)。这种效率优势使其首次具备大规模筛选数千晶体表面的能力。更重要的是,SurFF不仅能预测表面能,还能准确区分不同晶面的「可合成性」。在表面暴露预测中,高可合成性(High)的准确率达到77.1%,Top-5预测准确率更高达81%(图3g),有效过滤了不易合成或低暴露的表面。
整体来看,SurFF兼具高精度与高效率,为催化剂大规模理性设计提供了全新工具。
补充数据要点
表面能精度:主动学习测试集MAE=3.8meV·Å⁻²;ID MAE=3.0meV·Å⁻²;OOD MAE=10.5meV·Å⁻²;弛豫后结构与DFT的原子坐标RMS误差仅0.109Å。
可合成性/暴露判别:暴露面积分级为低/中/高后,High类准确率77.1%、整体准确率71.9%;Top-3/Top-5「最可能暴露面」识别稳健(见图3g)。
效率与可扩展性:代表性对比为10,919h(DFT)→0.23h(SurFF)、7,576h→0.27h,使「全晶体面弛豫」进入小时级批量推理范畴;在此基础上,SurFF可在天级时间窗口完成数千—上万晶体的筛选,论文并指出百万级规模在数日内可完成。
3. 多源实验与文献验证:SurFF一致率达73.1%
多源实验与文献数据验证SurFF晶面暴露预测与高分辨TEM观测一致率达73.1%。
图4 与实验对比
为了验证SurFF的预测是否符合真实情况,研究团队结合了大规模文献数据和原创实验数据。
一方面,团队利用大语言模型(LLM)从1万余篇顶级催化期刊论文中筛选出可靠的表面结构信息;
另一方面,亲自合成并表征了数种典型金属间化合物,通过XRD确定晶体结构,再用高分辨TEM精确识别暴露表面。
结果显示,SurFF对实验中观测到的晶面预测成功率高达73.1%。
例如,对于CuPd晶体,实验观测到的(100)和(110)晶面均被SurFF准确预测为高暴露表面。图4b进一步展示了多个金属间化合物的对比结果,图中橙色标注的晶面即为实验与预测一致的部分。
整体来看,SurFF不仅在计算层面达到DFT级精度,更能在真实催化体系中准确反映表面暴露规律。
这一结果说明,SurFF的预测具备可靠的实验可验证性,为催化剂理性设计提供了坚实支撑。
文献侧:团队构建LLM(DeepSeek-V2)驱动的高通量文献筛选流程,先按题录与摘要自动判别相关性并提取DOI,再由人工审核抽取合格的表面信息,实现对大量论文的高效收集与结构化整理。
实验侧:作者亲自合成并表征了ZnRh、ZnPd、ZnPt等金属间化合物,XRD用于确认晶体结构,HRTEM/HAADF-STEM/EDX用于精确定向与面间距测量(如CuPd的d₁₀₀=0.298nm、d₁₁₀=0.211nm),并与SurFF预测的高暴露晶面做逐一对照。
一致性结果:跨材料体系的统计显示,SurFF对实验观测晶面的命中率达73.1%;例如CuPd的(100)/(110)面均被正确预测为高暴露面。图4b以橙色标注给出了「预测=实测」的晶面集合。
外推应用:在与计算与实验对齐后,作者将SurFF一键扩展到**>6,000个金属间化合物(能量高于基态0.2eV/atom),共≈14万**独特晶面,总显卡时间仅约115GPU·h,并提供表格化数据以便社区检索与复用。
SurFF作为催化剂领域的表面暴露基础模型,首次实现了对金属间化合物表面性质的高精度、高效率、大规模预测。
它不仅成功地将计算速度提升了10⁵倍,补齐了传统催化筛选流程中「只看活性、不看结构」的关键短板,还通过迁移学习展示了其拓展至氧化物、氮化物等更广泛材料体系的巨大潜力。
未来,通过在数据库中整合温度、压力等真实反应条件以及动力学效应,SurFF有望发展成为一个更加通用和强大的催化剂理性设计与发现平台,持续加速新材料的研发进程。
王笑楠,清华大学化工系长聘副教授、博导,智能化工研究中心主任,国际合作与交流处副处长,新加坡国立大学荣誉副教授,新一代人工智能国家科技重大专项首席科学家、项目负责人,国家高层次青年人才计划入选者。
她带领团队从事AI+能源化工材料的研究,针对传统能源化工新材料研发周期长、成本高、工程放大困难等挑战,提出了融合数据与机理、大小通专模型并进的方法体系,建立了先进化工材料人工智能基础模型与智能体,并用于工业催化剂、高端聚烯烃等领域,突破「卡脖子」材料研发,拓展了绿色低碳能源化工研究方法。
发表论文180余篇,被引12600余次,H-index 67,担任Applied Energy、Green Chemistry等十本国际期刊副主编和编委,获世界化学工程理事会青年学者奖、美国化学会可持续化学与工程讲席奖、Cell Press中国女科学家奖、青年北京学者、侯德榜化工科学技术奖「青年奖」等荣誉,入选全球学者终身学术影响力榜,2024、2005全球高被引学者,连续五年被Elsevier评为全球前2%科学家。
<br>
<a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652633591&idx=2&sn=bcd0a9e0315f63fbc028020fe285f6ac&chksm=f05bd6865fb61fe0f7ef306b7781e570992bc127c9a5d6261079eb064da396f798761976f8d5&scene=0#rd" target="_blank">文章原文</a>
<br>
<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/cXImm1UDTW&maxage=1y" width="1px"></div></div></body></html>