News Release

知识图谱+大语言模型助力接力催化研究

A knowledge-graph workflow informed by expert scoring and LLM-based data collection, ranking relay pathways with condition alignment and provenance, free from black-box AI

Peer-Reviewed Publication

Science China Press

融合大语言模型与催化知识图谱的接力催化路径推荐

image: 融合大语言模型与催化知识图谱的接力催化路径推荐 view more 

Credit: ©《中国科学》杂志社

研究背景

接力催化(Relay catalysis)是一种将多个催化反应有机耦合的策略,可以显著提升合成效率和选择性,减少能耗和原料浪费。然而,要设计出一条合理的接力催化路径并不容易。研究人员不仅需要查阅大量分散的文献,还要对比不同的反应条件,并确保各个步骤之间能够顺利衔接。这个过程往往耗时漫长、依赖经验,且存在较大不确定性。此外,由于反应数据分散在不同来源,缺乏系统整合,研究人员很难快速获得全面、可靠的信息,这使得接力催化路径的设计充满挑战。

研究内容

在《国家科学评论》(National Science Review)发表的一项研究中,来自厦门大学的程俊教授、王野教授团队,以及爱丁堡大学的Jeff Z. Pan教授团队,共同开发了一种新的AI驱动方法,使这一过程更高效、更可靠。该方法将大型语言模型(LLM)与一个定制构建的催化知识图谱 Cat-KG相结合,旨在快速、直观地推荐有价值的接力催化路径,并清晰关联到原始研究文献。

工作原理

研究团队利用LLM从超过1.5万篇已发表的催化论文中提取关键反应数据,包括反应物、产物、催化剂、反应条件及性能等信息。所有数据经过清洗、整理,并存储在图数据库中,每个反应均与其来源文献相链接,使化学家能够轻松追溯每一步推荐反应的原始出处。

在寻找合适路径时,系统结合了基于图的搜索与融合化学知识的筛选规则。这些规则确保所识别的反应序列不仅在理论上可行,而且在实践中可操作。例如,保证某一步骤使用的温度或气氛不会与下一步发生冲突。筛选后的结果会由LLM生成简明的文字说明与化学方程式,方便理解与评估。

结果与影响

针对多种重要的目标分子(如乙烯、乙醇和2,5-呋喃二甲酸),该系统成功找到与实验室已验证路径一致的接力催化路线。同时,它还提出了20条尚未报道的新路径,供后续实验探索。多数结果可在数分钟内生成。

重要意义

与“黑箱”式AI模型不同,该方法具有透明性、可解释性和可溯源性。每条推荐路径都附有支持数据与文献链接,帮助化学家在实验前进行评估。系统具有高度灵活性,可以更新为更先进的大语言模型,也可拓展应用于光催化、电催化等新领域。研究团队还计划在未来版本中引入专家反馈,不断优化模型。

目前,该研究构建的Cat-KG已向公众开放,可用于催化反应查询,访问地址为:https://ai4ec.ac.cn/apps/chembrain

工作展望

目前,该系统主要针对每个反应步骤进行单独筛选。未来的研究将着重处理步骤之间更复杂的相互作用,例如考虑催化剂之间的耦合效应,考虑实际反应条件下催化剂稳定性,经济性和可操作性等,从而使整个催化过程在真实条件下更加有效。

关于研究团队
程俊团队隶属于厦门大学化学化工学院,研究平台为嘉庚创新实验室 AI4EC Lab。更多信息可访问团队网站:

https://www.cheng-group.net
https://ai4ec.ac.cn


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.