English

当前位置 > 海洋三所 > 科学研究 > 科研成果 > > 正文内容

我所生物重点研究团队利用蛋白质大语言模型揭示深海冷泉微生物驱动的磷循环
来源:    发布时间: 2025年05月27日     点击数:

 近日,我所生物重点实验室董西洋研究员团队联合阿里云飞天实验室AI4Science团队在Nature Communications(Nature系列综合类子刊,中科院一区top)发表了题为“LucaPCycle: Illuminating microbial phosphorus cycling in deep-sea cold seep sediments using protein language models”的研究论文。研究团队开发了基于蛋白质大语言模型的磷循环基因注释工具LucaPCycle,并将其应用于深海冷泉生态系统,有效增强了对冷泉生境中磷循环微生物多样性、生态功能及作用机制的认识。LucaPCycle能够挖掘以往未被发现的磷循环蛋白序列,并可广泛适用于不同类型的生态系统。

image.png

图1 LucaPCycle 的模型框架和基准测试

磷是生命必需元素,对海洋生产力具有关键影响。尽管地球化学证据表明深海冷泉中存在活跃的磷循环过程,但相关微生物机制尚不清楚。传统的基于序列比对方法常常无法检测到演化过程中的远源序列。为解决这一问题,研究团队开发了深度学习模型LucaPCycle,该模型整合了蛋白原始序列信息和基于蛋白质大语言模型的上下文嵌入特征。LucaPCycle从全球冷泉基因与基因组数据库的约1.5亿条蛋白进行大规模推理与预测,共发现了333,493种磷循环蛋白家族,尤为重要的是,鉴定出5,241个传统方法无法注释的磷循环蛋白家族。在这些传统方法未能注释的序列中,进一步发现了三类具有独特结构域的新型碱性磷酸酶家族。结合孔隙水地球化学数据、宏转录组及代谢组等多方面的证据,研究结果揭示了磷循环在冷泉生态系统中的重要性。该研究还发现系统发育多样的古菌,包括Asgardarchaeota、厌氧产甲烷古菌及Thermoproteota,通过多种机制参与有机磷的矿化和无机磷的溶解。此外,冷泉病毒可通过编码PhoR-PhoB调控系统及PhnCDE转运体等辅助代谢基因,潜在地促进宿主对磷元素的利用。

image.png

图2 三类远源碱性磷酸酶及其独特的结构域组成

该研究强调了基于蛋白质语言模型的方法在挖掘“隐藏”蛋白序列中的重要作用,不仅深化了对磷循环过程的认知,更展现了人工智能与微生物生态、海洋科学的创新融合。此项工作为系统探索微生物生态功能和深海基因资源挖掘提供了新范式,有望推动环境基因组学与海洋生态研究进入智能化新阶段。

我所生物重点实验室章楚雯副研究员和阿里云飞天实验室算法专家贺勇为本文共同第一作者,我所生物重点实验室董西洋研究员和阿里云飞天实验室生物计算总监李兆融共同通讯作者。其他参与者包括王洁妮、陈腾凯、Federico Baltar、胡敏杰、廖静和肖曦。本研究得到了国家自然科学基金项目、海洋三所基本科研业务费和福建省自然科学基金项目等科研项目的资助。

论文原文链接:https://doi.org/10.1038/s41467-025-60142-4