
编辑丨coisini
还记得 Evo 吗?
2024 年,由 Arc 研究所(Arc Institute)、斯坦福大学等联合开发的生物学人工智能(AI)模型 Evo(下称 Evo 1)问世,今年 2 月研究团队又重磅推出 Evo 2—— 能够预测所有物种 DNA、RNA、蛋白质的形式和功能。
现在,研究团队宣布使用 Evo 1 和 Evo 2 构建了全球首个 AI 生成的基因组(一种噬菌体基因组),Evo 研究团队主要成员、斯坦福大学计算生物学家 Brian Hie 表示:「生成式基因设计时代到来了!」

这项研究表明基因组语言模型能够捕捉进化约束,从而实现功能性基因组设计。在一定程度上,生物学迎来了「ChatGPT 时刻」。

研究论文:https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1
从设计单个基因到构建完整基因组
此前研究团队已经证明,Evo 系列基因组基础模型能够生成单一蛋白质及多组分系统,但其长期研究目标之一是通过生物语言模型设计出完整且具有功能活性的基因组。
不同于设计单个基因,基因组设计需要协调多个相互作用的基因和调控元件,同时维持复制能力、宿主特异性与进化适应性的平衡。这带来了单蛋白质或双组分系统设计中不曾出现的新约束条件与失效模式。

研究团队开发了集计算设计与实验验证于一体的综合框架,包括针对重叠阅读框的定制化基因注释 pipeline、基因组语言模型采样所需的系统化微调(systematic fine-tuning)与提示工程(prompt engineering)技术,以及合成噬菌体基因组的新型筛选方案。
ΦX174:读取、编写与设计 DNA
由于合成基因组的生成需要明确的设计标准,基于实践与历史意义考量,研究团队选择噬菌体 ΦX174 作为设计模板。其基因组全长 5386 个核苷酸,编码 11 个基因 —— 这一尺度既处于当前 DNA 合成成本可控上限,又足够复杂以展现基因组级设计能力。其重叠基因架构构成了严格测试场景:重叠区域的突变必须同时满足多个蛋白质约束条件。此外,ΦX174 编码的多种调控元件与识别序列需精密协作,确保在宿主细胞中的正确包装与复制。
ΦX174 基因组还具有特殊历史意义:1977 年,弗雷德里克・桑格团队首次完成对其全基因组测序;2003 年,克雷格・文特尔团队首次实现其全基因组化学合成,证明基因组可从头组装;如今在 2025 年,Evo 研究团队以 ΦX174 为模板诞生了首批 AI 生成的基因组。这一演进历程标志着现代基因组学的核心能力迭代:从读取 DNA,到编写 DNA,再到设计 DNA。

构建定制化基因注释
ΦX174 的重叠基因带来了首个重大挑战:由于重叠阅读框会干扰标准基因预测工具的判断(这些工具专为非重叠基因设计),常规方法最多只能识别 11 个基因中的 7 个。
因此,研究团队开发了一种新型注释 pipeline,将开放阅读框查找策略与噬菌体蛋白质数据库同源搜索相结合,成功识别出 ΦX174 的全部 11 个基因。
该定制化注释工具对评估数千条生成序列至关重要。研究团队设定至少需匹配 7 个天然 ΦX174 蛋白作为基础质量筛选标准,确保生成基因组保留噬菌体功能所需的遗传工具包。
针对噬菌体基因生成对 Evo 进行微调
尽管基础 Evo 模型已基于 200 多万个噬菌体基因组进行训练,具备生成噬菌体基因组序列的能力,但其可控性仍不足以生成类 ΦX174 基因组。
研究团队采用监督微调技术解决该问题:继续使用 14466 条微病毒科序列对 Evo 模型进行训练。通过微调,Evo 模型能专门生成与 ΦX174 密切相关的序列变体。
质量、宿主特异性与新颖性评估
为评估数千条生成序列,研究团队开发了基于序列质量、宿主特异性和进化多样性的筛选体系:既要确保基因组保持合理的基因排列,又要允许进化新颖性。同时需保证 AI 设计的噬菌体能感染实验所用的非致病性大肠杆菌 C 株。
实验表明,16 个功能性噬菌体均仅感染大肠杆菌 C 株及其近缘 W 株,在其他六种测试菌株中无生长现象,证明在保持宿主特异性的同时可实现其他区域的显著进化分歧。
实验验证

测试数百个合成基因组需要重新设计传统噬菌体工作流。研究团队基于 ΦX174 的裂解周期开发了生长抑制检测法:通过 Gibson 组装合成基因组,转化至大肠杆菌 C 感受态细胞,并在 96 孔板中监测生长抑制情况。感染后在 2-3 小时内会出现 OD₆₀₀值快速下降。
该方案实现了 285 种快速测试,其中 16 个引起生长抑制的候选噬菌体经过测序验证、扩增培养,并进行了适应性与宿主范围表征。
所有功能性基因组与其最接近的天然基因组相比均携带 67-392 个新突变。其中 Evo-Φ2147 具有 392 个突变,与 NC51 噬菌体的平均核苷酸相似度为 93.0%,根据某些分类学标准可被视为新物种。13 个基因组含有任何已知天然序列中均未发现的突变,证明 Evo 能利用自然进化未曾采样过的序列。
特别值得注意的是,合成噬菌体 Evo-Φ36 整合了远缘噬菌体 G4 的 DNA 包装 J 蛋白。冷冻电镜分析显示,较短的 G4 J 蛋白(25 个氨基酸 vs38 个氨基酸)在衣壳结构中采取了独特取向。这表明人工智能能够协调复杂的补偿性突变,使新型蛋白质组合实现功能化。

总的来说,这项研究表明:基因组语言模型在经过适当的训练和引导后,能够很好地捕捉进化约束,从而实现功能性基因组设计。
随着基因组语言模型的改进和合成成本的降低,全基因组设计可以探索自然选择从未尝试过的进化可能性,为生物技术和基础研究开辟新的途径。从读取基因组,到编写基因组,再到设计基因组,生物学研究将开启新的篇章。
参考内容:
https://arcinstitute.org/news/hie-king-first-synthetic-phage
https://x.com/samuelhking/status/1968329299364376698
]]>