image: 图1 基于病毒蛋白质语言模型vBERT的通用型未知病毒适应风险预测框架GIVAL view more
Credit: Copyright © 2025 Shu-Yang Jiang et al.
研究背景
在生物医学与公共卫生领域,病毒不断变异与进化可能导致其跨越物种屏障,感染非自然宿主,进而引发人际传播甚至全球大流行。历史上多次重大疫情,如:新冠病毒感染及流感病毒大流行等,均由动物源性病毒引起。因此,面对未知病毒的潜在威胁,发展能够从基因型层面快速评估其适应性与传播风险的智能模型,已成为传染病防控的前沿挑战。
传统基于实验的病毒风险鉴定方法虽结果可靠,但流程耗时、通量低,难以对海量病毒序列实现实时、前瞻性风险评估。近年来,人工智能技术已展现出基于病毒基因或蛋白序列预测受体结合、宿主适应及进化逃逸等表型的潜力。然而,现有模型主要针对特定病毒或特定基因设计,对序列种类与长度限制严格,无法广泛适用于多样未知病毒的通用型预测。此外,公共数据库中表型标签匮乏且存在标注噪声,严重制约了监督学习模型的性能。因此,如何在标签不完善条件下,构建一种高精度、通用性强、能够直接对未知病毒进行适应性风险预测的智能框架,是当前该领域亟待解决的关键问题。
总之,发展一种不完全依赖于预定义标签、能够跨病毒种类进行适应风险预测的通用人工智能方法,将为新发传染病的早期预警与防控决策提供关键技术支持,具有重要的理论价值与应用前景。
研究进展
军事科学院军事医学研究院姜涛/李靖团队与吉林大学赵世舜团队、中国医学科学院北京协和医学院王健伟团队基于预训练的病毒蛋白质语言模型vBERT构建了病毒风险预测框架GIVAL,提出一种面向未知病毒适应性风险的通用智能预测方法(图1)。首先,本研究基于隐马尔可夫模型(HMM)对病毒蛋白质序列进行动态分词,在此基础上,病毒蛋白质语言模型vBERT通过全病毒基因序列统计采样、隐马尔可夫模型动态分词等技术实现了基准测试较DNABERT-2、proteinBERT、ESM-2等主流预训练模型的性能提升(图2A-E)。其次,本研究基于vBERT嵌入建立了半监督学习的未知病毒适应风险通用AI预测框架GIVAL,并对全流程进行了测试。GIVAL的半监督学习框架为模型提供了更高的预测准确率和标签容错率,实现了在标签不足条件下进行建模并对未知输入序列进行准确预测(图2F-K)。最后,GIVAL能够准确辨别已报道的两株中东呼吸综合征冠状病毒(MERS-CoV)受体识别的转换,也能够识别犬源、马源H3N8流感病毒适应性差异、推断高风险H5N1流感病毒突变(图3)和评估近年来猴痘病毒的适应性变化趋势。
未来展望
该研究创新性的病毒风险预测通用人工智能框架可面向未来可能出现的未知病毒风险进行智能评估,在病毒序列不完整、标注数据稀缺的条件下,仍然可以实现高精度、高鲁棒性的风险评估,可以为病毒类传染病的早期预警与主动防控提供决策依据。
原文链接:https://spj.science.org/doi/10.34133/research.0871
Journal
Research
Method of Research
News article
Subject of Research
Not applicable
Article Title
General Intelligence Framework to Predict Virus Adaptation Based on a Genome Language Model
Article Publication Date
30-Sep-2025