Cell Genom | 基于微扰转录组知识图谱嵌入的化合物-蛋白质相互作用预测

2024年9月19日,中国科学院上海药物研究所郑明月课题组在Cell Genomics期刊发表题为“Identifying compound-protein interactions with knowledge graph embedding of perturbation transcriptomics”的研究论文。该研究提出基于知识图谱的计算模型PertKGE,以数据驱动的形式从微扰转录组数据中解耦出化合物-蛋白质相互作用(CPI)。

化合物和蛋白质是药物发现中两个最基本的实体,对它们之间相互作用的建模是药物发现的基础。尽管目前仍然没有一种通用的计算方法可以预测和解释所有的化合物-蛋白质相互作用,但是研究人员们可以利用不同的生物数据、从多种研究视角构建化合物-蛋白质相互作图谱。

在药物发现领域,微扰转录组学联系起了药物发现中最重要的实体(化合物)和组学数据之间的联系,提供了化合物微扰受试体(单细胞、细胞系、病人)后产生的直观微扰结果,为解耦化合物-蛋白质相互作用(CPI)提供了全新的视角。然而由于生物数据的噪声、细胞稳态以及转录组表达的动态变化等原因,CPI通常不会直接反应在差异表达基因上,这为微扰转录组数据的分析带来了挑战。

图1. PertKGE的工作流

在该项研究中,研究人员提出了基于知识图谱的PertKGE模型(图1)。PertKGE模型受启发于微扰组学分析中的因果推断模型以及知识图谱在药物发现中的广泛应用,从因果视角来构建新型的生物知识图谱,其中包含三个组成部分:(1)原因部分(Cause):化合物与受试体中的特定靶标发生CPI;(2)过程部分(Process):生物系统中多层级的调控事件(蛋白、RNA、DNA级别调控)对CPI信号进行放大;(3)结果部分(Effect):微扰结果以差异表达基因的形式被观测。在此基础上,结合知识图谱嵌入技术来建模因果链接,从而达到从差异表达基因中解耦CPI的目的。广泛的计算实验表明PertKGE在化合物冷启动和靶标冷启动场景中均取得了最好的CPI预测性能,并且其通过因果策略引入的多级调控事件缓解了CPI数据集中代表性偏差对模型学习的影响,从而大幅提高了预测的可靠性。

图2.基于PertKGE的K-756作用靶标研究

此外,研究团队将PertKGE整合进基于表型和基于靶标的药物发现流程中,发现了TNKS抑制剂K-756的新靶标ENPP1,为其独特的抗肿瘤免疫效应提供了分子层面的机制解释(图2);以10.8%的高命中率为治疗结直肠癌和胰腺癌的新型靶标ALDH1B1筛选到了5个具有全新骨架的苗头化合物。

在这项研究中,研究团队将CPI预测任务对应到药物发现的真实场景中,从计算模拟和实验验证两方面证明了PertKGE在药物发现流程中的作用,为CPI图谱的构建和推理提供了一种全新的策略。

上海药物所硕士倪圣焜、孔祥泰、陈正阳和中国科学技术大学联培博士生张莹莹为本文的共同第一作者。上海药物所郑明月研究员、张素林副研究员与李叙潼副研究员为论文通讯作者。本研究得到了中国科学院基础与交叉前沿科研先导专项、国家自然科学基金、国家重点研发计划、上海药物所与上海中医药大学中医药创新团队联合研究项目、中国科学院青年创新促进会会员项目、中国科协青年托举人才工程以及上海市科技重大专项资助。感谢国家蛋白质科学研究(上海)设施规模化蛋白质制备系统工作人员提供的技术支持和帮助。

原文链接:https://doi.org/10.1016/j.xgen.2024.100655