News Release

S2ALM:抗体工程领域的革命性模型

研究人员开发出基于人工智能的独特模型,采用双重学习方法进行抗体结构分析

Peer-Reviewed Publication

Research

image: 

Two-Stage Hierarchical Pre-training Framework of S2ALM: In Stage I, the model learns foundational sequence–structure relationships from large-scale protein data, using 1D amino acid sequences and 3D structural sequences. This stage employs masked language modeling to embed general biochemical patterns. Stage II shifts focus to antibody-specific data, incorporating Sequence–Structure Matching (SSM) and Cross-Level Reconstruction (CLR) objectives to capture the intricate interplay between antibody sequences and structures.

view more 

Credit: Copyright © 2025 Mingze Yin et al.

抗体,也称为免疫球蛋白,是人体免疫系统产生的特殊蛋白质,用于对抗病毒和病原体等有害入侵者。由于这些蛋白质需要与靶标结合,每种蛋白质都具有针对其靶标的独特结构。由于其特异性和低副作用,这些抗体以药物形式被广泛探索用于治疗效果。

虽然传统上使用繁琐的湿实验室方法进行研究,但分子科学家现在正转向计算模型来设计抗体,以确保在更短时间内实现更高精度。为了推动 AI 在抗体设计中的应用,中国的一组研究人员开发了一种突破性的 AI 模型,称为 S2ALM(序列 - 结构多级预训练抗体语言模型),该模型可以利用结构特定细节来分析、预测和设计抗体。

这项研究由中国浙江大学药学院的侯廷军教授和谢昌谕教授领导,与香港科技大学(广州)信息枢纽 AI 方向的陈金泰助理教授以及中国浙江省医学影像人工智能重点实验室的吴健教授合作完成。该研究结果于 2025 年 5 月 12 日在《研究》杂志在线发表。

“任何抗体蛋白的分子基础都在于其氨基酸序列,” 侯教授解释说,“序列决定其三维结构,而结构决定其生物学功能。”

虽然大多数现有 AI 模型仅关注氨基酸序列,但 S2ALM 是首个整合序列和结构的模型,提供了对抗体功能的更完整理解。为了构建这个模型,研究人员在一个包含 7500 万抗体和蛋白质序列以及 1170 万三维结构(包括实验确定和计算机预测的结构)的大型数据集上对模型进行了训练。

此外,他们在分层预训练范式(分步 AI 训练方法)中引入了两种创新的学习策略。一种策略是序列 - 结构匹配(SSM),帮助模型将序列数据与相应结构联系起来。第二种策略是跨层级重建(CLR),使模型能够通过利用序列和结构线索来预测缺失信息。

这种策略组合的结果令人印象深刻。S2ALM 模型在抗体研究和药物开发涉及的几项关键任务中表现优于所有其他领先模型。这些任务包括:抗原结合能力预测、追踪 B 细胞成熟(用于抗体开发)、识别抗体互补位(特定抗原结合区域)、预测抗原 - 靶标结合强度(亲和力)以及设计新的抗体序列。

所开发模型最引人注目的成果之一是其生成全新抗体候选的能力,这些候选抗体可以靶向 SARS-CoV-2、埃博拉病毒和乙型流感病毒等病原体。高级结构预测显示,这些 AI 设计的抗体可以轻松形成稳定且功能性的三维形状,适合靶向疾病。

“S2ALM 的成功体现在三个方面:首先,它从全面的抗体表征数据中学习;其次,其独特的学习方法将详细的结构信息与生物学特征相结合;第三,它在广泛的任务上超越了最先进的性能,甚至在设计新抗体方面也是如此,” 吴教授评论道。

虽然 S2ALM 的开发标志着抗体研究的一个里程碑,但其应用也为治疗创新提供了现实世界的潜力。通过减少对实验室方法中试错的依赖,该模型可以加速下一代抗体的开发,使我们更接近更快、更可靠且更具成本效益的基于免疫的疗法。

原文链接: https://doi.org/10.34133/research.0721


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.