Sci Adv | 陈勋课题组合作开发转座子注释新方法揭示内源性逆转录病毒序列和功能在物种间的差异进化

2025年7月18日,陈勋课题组联合日本京都大学、加拿大麦吉尔大学Guillaume Bourque与 Fumitaka Inoue等团队在国际著名期刊Science Advances上发表了题为“A phylogenetic approach uncovers cryptic endogenous retrovirus subfamilies in the primate lineage”的研究论文。该研究通过开发一种基于进化的转座子注释新方法,结合系统发育分析、大规模平行报告系统(massively parallel reporter assays,MPRAs)和多组学等技术,在单碱基水平上揭示了内源性逆转录病毒序列和功能在不同物种间的差异进化。

人体内病毒组包括感染性病毒、整合到人基因组中的外源病毒(如乙型肝炎病毒等)以及内源性逆转录病毒(Endogenous Retroviruses,ERVs)等多种类型。内源性逆转录病毒序列是转座子重复序列的一种,占据了人基因组的8%,其来源于百万年前感染人类祖先的逆转录病毒,并在漫长的进化过程中被“捕获”而保留在基因组中。当然,并非只有一种古老病毒能感染并被“捕获”,其中就包括了在不同进化阶段感染人类祖先的HERV-E,HERV-K和HERV-H等多种类型,根据序列差异,这些内源性逆转录病毒序列可以将其分为500多个亚家族。

一个完整的内源性逆转录病毒序列通常包括gag、pol和env三个核心基因结构域,以及两端具有重要调控功能的长末端重复序列(LTRs)。大多数内源性逆转录病毒序列都在进化过程中,因突变、重组等而失去原有的功能,因此曾经一直被认为是基因组中无功能的“垃圾”序列。然而,近年来的大量研究表明,内源性逆转录病毒尤其是其中的LTR区域富集了众多转录因子结合位点,能作为顺式作用元件(cis-regulatory elements)调控邻近基因的表达,参与先天免疫等多个基因表达调控网络及生物学过程。因此,内源性逆转录病毒在癌症、发育和感染性疾病等多种人类疾病中发挥着重要作用。

对内源性逆转录病毒序列的准确注释是其功能与进化研究的基础。然而,目前主要依赖序列比对的注释方法存在局限性,导致广泛使用的人基因组内源性逆转录病毒序列数据库中存在大量注释错误。为解决这一难题,研究人员首先开发了一种转座子序列注释的新策略。该策略利用系统发育分析,将序列相近但被误分至不同亚家族的序列进行整合和重新注释。针对76个进化上年轻的内源性逆转录病毒亚家族,研究人员应用该方法成功纠正了其中26个亚家族中近三分之一的序列注释错误。

研究团队以MER11家族为例,结合系统发育分析与表观基因组学数据,揭示了MER11A/B/C亚家族中存在的大量注释错误,并利用新方法进行了校正。同时,研究人员鉴定出四个新的亚家族:MER11_G1、G2、G3、G4(newly annotated MER11 subfamilies)。基于这些更准确的注释信息,能够对MER11家族的表观遗传修饰特征进行更精细的分组研究并追溯其进化历史。

随后,研究团队利用MPRAs技术实验验证了来自人、大猩猩和猕猴基因组中共7000多条内源性逆转录病毒MER11序列的转录调控活性(启动子/增强子活性)。并在单碱基分辨率水平上揭示了与之相关的SOXs等转录因子结合位点序列及其进化规律。特别值得注意的是,研究人员在进化上年轻的MER11序列中鉴定出了人类与大猩猩特有的一个SOXs结合位点序列。该SOXs结合位点序列在灵长类物种进化过程中由一个单碱基缺失事件产生,并显著增强了其调控活性。

综上所述,本研究建立了一套用于研究内源性逆转录病毒等转座子分类、注释、进化和生物学功能的新方法。利用该方法,研究人员能够更准确地追踪同一内源性逆转录病毒序列及其功能的演化历史。此外,所获得的精准的内源性逆转录病毒注释信息将显著提升后续序列和功能鉴定的可靠性,为系统性研究内源性逆转录病毒在肿瘤发生、发育调控和免疫相关疾病中的生物学作用及其进化提供了新的有力手段。当然,这一套用于研究内源性逆转录病毒的策略也能被用于深入研究流感等病原体的突变模式、演化动态及功能特征。未来,研究团队期待进一步结合系统发育学、多组学和人工智能等前沿技术,全面解析内源性逆转录病毒的复杂生物学功能,探索其中的隐藏靶点,研究其在人类免疫系统中的重要作用。

陈勋研究员为本论文的第一作者兼共同通讯作者。  

图1 一种基于进化的转座子序列注释新方法

图2 新注释的MER11亚家族揭示了表观遗传图谱的演化过程

图3. 在灵长类谱系中内源性逆转录病毒能通过碱基变异获得物种特异的功能性基序


【课题组简介】

陈勋课题组致力于开发多组学测序技术和AI生信算法,解析肿瘤、感染性疾病的发病机理和个体差异,为预防及精准治疗多种人类疾病的新型疫苗与药物研发提供指导。近期以通讯或第一作者身份在Cell Genomics,Science Advances,Genome Research、Briefings in Bioinformatics、Bioinformatics等高水平期刊发表多篇研究论文,并主持国家重点研发计划课题等多个国家级科研项目。

(供稿部门:陈勋课题组)