
一种基于扩散模型的生成式 ML 框架 PXRDnet 解决材料难题。
在材料领域有一个长期存在的问题,它致使救命药物的研发被迫搁置,新一代电池的发展受到阻碍,考古学家无法确定古代文物的来源。
百年来,科学家们一直使用晶体学方法来确定材料的原子结构,它的工作原理是将 X 射线束照射到材料样品上,并观察其产生的衍射图案。
从衍射图案中,理论上可以计算出样品中原子的精确排列。然而,挑战在于,这种技术只有在研究人员拥有大量且纯净的晶体时才能有效。
当他们不得不面对一种被称为纳米晶体的微小粉末时,这种方法只能提供一些线索,无法完全揭示那些看不见的结构。
「人工智能可以从结构数据库中学习各类知识,来解决这个问题。正如 ChatGPT 学习语言模式一样,人工智能模型能够学习自然界中物理允许的原子排列模式。」哥伦比亚大学(Columbia University)工程学院材料科学、应用物理和应用数学教授 Simon Billinge 表示。
Billinge 领导的研究团队提出了一种基于扩散模型的生成式机器学习框架 PXRDnet,它在 45,229 个已知结构上进行训练。
仅基于化学式和信息稀缺的有限尺寸展宽粉末衍射图,PXRDnet 成功解决了 200 种不同对称性和复杂程度的材料中小至 10 Å 的纳米晶体,包括所有七种晶体系统的结构。
相关研究以「Ab initio structure solutions from nanocrystalline powder diffraction data via diffusion models」为题,于 2025 年 4 月 28 日发布在《Nature Materials》。

过去一百年持续不断的材料革命,建立在科学界对原子排列(即材料结构)及其特性对这一底层结构的内在依赖性的深入理解之上。用解析衍射图谱确定材料结构,必要条件是单晶结构解。
图示:纳米材料 PXRD(powder X-ray diffraction) 图谱。(来源:论文)
不过,在许多现实情况下,获取纯单晶样品并不可行,尤其是纳米级原子团簇(即所谓的纳米结构问题)。在这些情况下,衍射图谱的信息含量会显著降低。必须从粉末衍射图谱中重叠的峰中提取峰强度,而这个问题在纳米材料(定义为尺寸小于 1,000 Å 的晶体)中被大大放大,因为有限尺寸效应会导致布拉格峰显著增宽。
总而言之,这项任务困难重重!
PXRDnet 来解决困难
Billinge 团队的目标是看看是否可以使用已有结构形式的先验知识,来训练生成人工智能 (AI) 模型,从而克服从「信息退化的衍射图案」中解决结构问题的挑战。
于是,他们利用 4 万个已知原子结构训练了一个生成式人工智能模型 PXRDnet。
「从之前的研究来看,我们知道纳米晶体的衍射数据所包含的信息不足以得出最终结果。该算法利用了数千个不相关结构的知识来增强衍射数据。」Billinge 解释道。

图示: PXRDnet 结构预测。(来源:论文)
在信息量非常低的情况下,例如 10 Å 纳米晶体尺寸,PXRDnet 的预测表现得非常出色。
PXRDnet 能够在五次测试中有四次成功,且生成了可验证地确定结构候选,这些候选结构的平均误差仅为 7%。此外,PXRDnet 能够从实际实验中收集的噪声衍射图谱中解析结构。
与任何结构求解方法一样,该团队并不期望 100% 的成功,而是寻求一种能够提供结构候选物并可进一步评估其有效性的方法。在这方面,PXRDnet 展现出了卓越的性能,这得益于朗之万动力学(Langevin Dynamics)固有的随机性,从而产生了多个结构候选物。
早期,科学家使用 Liga 算法通过原子对分布函数求解纳米结构的研究,仅在对称性足够高的结构中成功,这限制了该方法的影响力。
PXRDnet 通过利用其训练数据中的信息,在这种低输入信息环境下取得了更大的成功,而这是 Liga 无法做到的。PXRDnet 的成功,表明扩散模型或许可以为更广泛的科学问题提供一种强有力的方法。
这说明对人类来说超级难的问题,对数据驱动的机器学习方法来说并不一定很难。

图示:五次测试的实验数据。(来源:论文)
还有很大的提升空间
虽然如此,这项研究依然存在一些局限性。
PXRDnet 的局限性在于需要预先知道化学式,未来将探索在未知或部分已知化学成分情况下的结构解析能力。此外,当前研究仅适用于晶胞原子数不超过20的材料,未来需扩展至更多原子的材料。
数据质量方面,这里使用的低质量图谱(Q < 8.2 Å^−1)限制了模型性能,而更高质量的数据有望提升预测准确性。机器学习层面,模型基于现成的 CDVAE 主干,其贡献在于解决了纳米材料结构测定难题而非算法创新。
研究人员还表示,未来另一个优化方向是增强对背景信号的稳健性,例如通过消除容器信号干扰来提升模型表现。
结语

图示:晶体衍射示意。(来源:论文)
「粉末晶体学问题是著名的蛋白质折叠问题的姊妹问题,在蛋白质折叠问题中,分子的形状是通过线性数据特征间接推导出来的。」哥伦比亚工程学院机械工程系主任、论文作者之一 Hod Lipson 教授说道,「现在,尤其让我兴奋的是,人工智能在物理或几何背景知识相对匮乏的情况下,竟然能够学会解决困扰人类研究人员一个世纪的难题。」
这个百年粉末晶体学之谜对于 Lipson 来说意义非凡。Lipson 是计算晶体学方法先驱 Henry Lipson(CBE,FRS,1910-1991)的孙子。20 世纪 30 年代,Henry Lipson 与 Bragg 等人合作,开发了早期的晶体学计算技术,这些技术被广泛应用于解决早期的复杂分子,例如青霉素。
「我上中学的时候,这个领域还在苦苦挣扎,那时候构建能够区分猫、狗的算法都超级困难。」论文的第一作者、斯坦福大学的博士生 Gabe Guo 表示:「现在,像我们这样的研究领域,正在展示人工智能的巨大威力。它确实能够增强人类科学家的能力,并将创新推向新的高度。」
总而言之,这项研究为未来的计算晶体学和材料科学研究带来了乐观的展望。
论文链接:https://www.nature.com/articles/s41563-025-02220-y
相关报道:https://www.eurekalert.org/news-releases/1081847
]]>