以码抗病:计算机如何辅助抗病毒药物研发

原创:学CADD的蛋(中国科学院上海药物研究所在读博士)

首发:“科学大院”公众号 

 

  我原以为,这依然会是一个寻常的寒假。

  直到疫情的形势愈发严峻。

  对病毒各类蛋白的调研任务分配到远在五湖四海的每个实验室成员头上。没有瓶瓶罐罐,没有五花八门的试剂,没有昂贵精致的仪器。一台能远程连上服务器的电脑,这便是我所拥有的全部。

  图1. 药物研发有时只需要一台能连上服务器的笔记本(图片来源:veer图库)

 

  很多人以为,药物的研发只有在穿着白大褂的实验室里可以做。然而,随着近十余年,各类理论方法、计算机硬件、及工业和学术专业软件的发展与成熟,计算机辅助药物设计(Computer-Aided Drug Design, CADD)的方法已日趋成熟,其应用极大地加快了新药研发的速度与效率,已成为现代药物研发的常规方法之一[1]。

  依赖于这样的技术,即便我足不出户,在家远程工作,也能为寻找治疗此次病毒感染的潜在药物贡献自己的力量。

 

 寻找关键蛋白质

  蛋白质是生命的物质基础,是组成细菌、病毒及动植物的一切细胞、组织的重要成分。各类功能性蛋白质在机体中各司其职,维系着整个机体的正常运转。

  以病毒为例,病毒是由核酸(DNA或RNA)与蛋白质构成的非细胞形态,介于生命体与非生命体之间,无法自我复制与繁殖,需要寄生在活的宿主细胞内,依赖于宿主细胞的原料、能量供给与场所,完成自我的复制与释放[2]。这一过程就好比一个A国的卖假钞的罪犯(病毒),本身没有印制A国货币的能力;但当他侵入B国的印钞厂(宿主细胞)后,他就能调用B国工厂的所有资源,来印制A国的货币(病毒的核酸与蛋白)。

  病毒的生命周期需要经历吸附、侵入、脱壳、生物合成、组装和释放等六大步骤[2],病毒的各类功能性蛋白在这些步骤中分工明确、高度协作,从而才能完成从感染宿主细胞到复制病毒的整个周期。目前,研究人员已从新型冠状病毒(2019-nCov)中分离出orf1ab, S, E, M, N等10条基因组序列,各自编码相应的病毒蛋白。

  通过与同为冠状病毒的SARS病毒类比,我们可以合理地推测出新型冠状病毒基因编码的各类蛋白质的功能。举例来讲,如,orf1ab基因编码orf1ab多聚蛋白,参与病毒RNA的转录与复制,并具有蛋白酶、甲基转移酶等多个功能;S基因编码冠状病毒的表面糖蛋白,也称为棘突蛋白(Spike Protein),通过与人体内的ACE2蛋白质结合,直接介导病毒对宿主细胞的感染及融合,这类蛋白如同日冕般分布在病毒的包膜上,“冠状病毒”由此得名。这些功能性蛋白质对病毒的感染与复制发挥着重要的作用,单独或同时干扰其中的一个或多个蛋白质的功能,抑制其活性,便能阻断病毒感染宿主细胞或在宿主细胞内自我复制的进程,从而起到治疗的效果。

  因此,一旦获取了病毒蛋白质的晶体结构,基于前期对其功能的了解,我们便能利用计算机辅助药物设计的技术,针对性地寻找潜在的有效药物。那么,这一过程是如何进行的呢?

 

 鱼与刀,锁与钥匙

  若是“以貌取物”的话,在以“光滑弹嫩”为美的今天,蛋白质表面坑坑洼洼,“长得”可实在不算漂亮。可恰是这些坑坑洼洼的空腔,才是真正暗藏玄机的地方。

  以SARS病毒orf1ab多聚蛋白中的一段,3C-like蛋白酶,也称Mpro蛋白为例。这一蛋白主要负责将多聚蛋白水解为功能性的多肽,以发挥其各自的功能;就好比做鱼的时候,用一把锋利的刀把整条鱼除鳞去脏,并分为鱼头、鱼身、鱼尾,分别预备炖汤、红烧、清蒸一样。这一蛋白酶的活性位点,就好比是这把菜刀的刀刃,就藏身于蛋白质表面的空腔(口袋)中(图2)。

  图2. 坑坑洼洼的SARS Mpro蛋白表面(白色)及其蛋白酶活性位点口袋(红色圆圈),PDB编号2GX4[3](图片来源:PyMol作图)

  筛选或合成得到的具有生物活性的小分子可以很好地结合在这一活性位点的口袋中(图3),从而抑制蛋白酶的活性,阻止其将多聚蛋白切割为功能性多肽,从而阻止这些多肽在后续病毒的复制和感染中发挥功能。就好比没收了这把切鱼的刀,或者在刀刃上套了一层使其钝化的保护套,使其无法处理这条鱼,从而无法进行后续的烹饪。

  图3. SARS Mpro蛋白表面(白色)及文献报导的抑制剂(绿色棍装),PDB编号2GX4[3](图片来源:PyMol作图)

  对每一个蛋白质,寻找具有令人满意的生物活性的分子的过程,就好比是面对一把精美绝伦的锁,需要找到一把同样精美绝伦的钥匙,来与之紧密契合。而计算机辅助药物设计所需要做的,就是以高效和低成本的方式,去找到这样一把合理的钥匙;即,基于对蛋白质功能的前期了解,及对蛋白质结构的系统分析,通过计算的方式,评估各类分子在蛋白质口袋中的结合强度和作用模式,从而筛选或设计出最有可能成为蛋白功能抑制剂(或激动剂)的分子。

 

  计算机辅助药物发现

  不幸的是,尽管近年来相关技术飞速发展,但找到这样一把精美绝伦的钥匙绝非易事。一个新药从研发到上市往往需要消耗数十年的时间和数以十亿计的美金[4]。但好消息是,总有这样几把锁长得有点像,其钥匙可以通用,就像艾滋病蛋白酶的抑制剂可能可以作用于冠状病毒的蛋白酶(如奈菲那韦和洛匹那韦),负责埃博拉或流感病毒RNA复制的RNA聚合酶(RNA-dependent RNA polymerase,RdRp)抑制剂可能可以作用于冠状病毒的RdRp一样(如法匹拉韦和瑞德西韦)[5]。

  面对急性爆发的疫情,从已上市或已在临床上的“老药物”中寻找合适的分子显然是相比从头研发新的分子更具时间优势的策略。运用计算机辅助药物设计,基于一种叫做分子对接(molecular docking)的技术进行虚拟筛选(virtual screening),我们可以模拟出每个“老药”分子在病毒蛋白质口袋中的结合构象,通过打分函数、自由能计算等方式评估其理论上的结合强度,从而分析该分子成为潜在抑制剂的可能性。就好比当我们已知“锁”的构造时,运用这样的技术,可以不必亲自把每把钥匙都在锁孔里插一遍来寻找能开锁的那把;通过计算机模拟分析的方式,筛选出最可能打开锁的几把钥匙,而后只对这几把钥匙进行测试就可以了。

  甚至于,利用同源模建(homology modeling)的技术,我们甚至可以不用知道当前病毒蛋白这把“锁”的构造,在仅有蛋白质氨基酸序列的情况下,构建出病毒蛋白质结构可能的模型,从而提交虚拟筛选作业。尽管据早期的新闻报导,2019-nCov病毒和SARS病毒在基因组水平的相似度只有70%,但事实上,通过对病毒蛋白的序列比对可以发现,此次新型冠状病毒的某些关键蛋白和SRAS病毒的氨基酸同源性能达到95%以上(例,图4)。因此,依赖于蛋白质晶体结构数据库(Protein Data Bank)中,早年研究SRAS病毒时获得的SARS病毒蛋白的晶体结构,我们便可以构建出合理的2019-nCov的相应蛋白质的结构。

  图4. SARS与2019-nCov的Mpro蛋白氨基酸序列比对(图片来源:BoxShade作图)

  因此,对急性爆发的疫情,当结构生物学等基础研究来不及跟上;当病毒毒性太大,实验室条件受限、满足生物安全要求的实验室较少;或者当待测试分子过多,人员不足,成本过高时,计算机辅助的方式都不失为一种高效的策略,为活性分子的发现与机制探索提供宝贵的建议,从而为特效药物的研发赢得宝贵的时间。

 

  写在最后的话

  我自寒假的第三天开始在家参与此次新型冠状病毒的相关工作,至今已过去约两周的时间。无疑,在博士求学生涯即将结束的阶段,这是我度过的最充实、也是最紧张的一个假期。

  但正如前文所述,药物研发,绝非易事。就像早先一些学者所说的“不管疾病有多严重,不管我们期待新药和新疫苗的愿望是多么迫切,新药和新疫苗开发的规律无法被逾越。”[6]药物研发有其固有的规律,绝非人的意志可以转移。尽管如前所述,现今已有多个药物在进行临床或临床前研究[5],但保护好自己不受感染依然是每个人的当务之急。

  所幸相比17年前,我们现在有了天河,有了神威,用于蛋白体系模拟的算力早与当年不可同日而语,一个又一个课题组及科研工作者,毫不犹豫地牺牲了自己的休息时间参与此次攻关。

  也许就像高中政治课本里所说的那样吧:“道路是曲折的,前途是光明的!

  2020年2月写于等服务器计算结果的间隙

 

  参考资料:

  1.Jorgensen, W. L., The many roles of computation in drug discovery. Science 2004, 303, 1813.

  2.中科院微生物所, 科学大院, 入侵&反击!病原体和人体的攻防战.

  3.Yang, S.; Chen, S. J.; Hsu, M. F.; et, al., Synthesis, crystal structure, structure-activity relationships, and antiviral activity of a potent SARS coronavirus 3CL protease inhibitor. J. Med. Chem. 2006, 49, 4971.

  4. 管丽,科学大院,新药是如何从实验室走向市场的?

  5.医药魔方, 医药魔方Info, 重磅!Remdesivir新型肺炎临床试验2月3日启动!海正法匹拉韦紧急申报上市.

  6.王立铭, 赛先生, 新药新疫苗,我们什么时候能等到?

  版权说明:未经授权严禁任何形式的媒体转载和摘编!