上海药物所团队在第三届世界科学智能大赛中斩获佳绩
2025年7月25日,第三届世界科学智能大赛总决赛于上海科学智能研究院举办。作为科学智能(AI for Science)领域的全球前沿旗舰赛事,本届大赛以“更产业、更年轻、更开放”为目标,设置航空安全、材料设计、合成生物、创新药、新能源五大赛道,并配有百万奖金池,吸引了来自全球近30个国家和地区的近1.6万人竞相角逐,旨在推进科学智能技术创新,挖掘顶尖创新团队,构建科学智能生态,激发科学智能发展新动能。
7月26日,在2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2025)现场,中国科学院上海药物研究所参赛团队捷报连连,继2024年上海药物所张玮同学在物质科学赛道摘得桂冠后,今年同由上海药物所郑明月研究员指导的三支团队乘势而上,一举斩获1冠2亚的优异成绩。在“3D分子构象条件生成”材料设计赛道中,CyberForce团队(石宇琪、曾传龙)夺得一等奖,Learn2Win团队(范哲欢)荣获二等奖;在“RNA逆折叠与功能核酸设计”创新药赛道上,碱基互补配队团队(王星又、陈铭安)荣获二等奖。复旦大学校长金力,南方科技大学校长薛其坤,复旦大学高分子科学系教授、校长助理彭慧胜,复旦大学附属中山医院心内科主任、上海心血管病研究所所长葛均波等为获奖选手颁发获奖证书和奖杯。
【参赛团队方案介绍】
材料设计赛道冠军(一等奖)CyberForce团队-方案简介
CyberForce团队由上海药物所博士研究生石宇琪和硕士研究生曾传龙组成。
分子的3D结构是研究物质性质的基础。无论是药物研发、催化剂设计,还是新能源材料开发,分子的结构均决定了其物理化学性质和功能表现。然而,在许多特定领域(如新材料设计、催化剂设计等),分子结构数据的获取往往面临巨大挑战。传统实验方法受限于高昂的成本、复杂的操作流程以及有限的覆盖范围,而基于理论计算的数据生成则需要大量的计算资源和时间投入,难以满足快速发展的科研需求。因此,如何高效生成具有潜在应用价值的分子结构,成为亟待解决的关键问题之一。
扩散模型(如EDM、GeoLDM等)在三维分子生成领域已有广泛应用,然而这类方法普遍面临生成精度有限、训练与采样效率低下等问题。近年来,伴随大语言模型技术的快速发展,一系列基于一维序列的三维分子表征方法被相继提出,如ConfSeq、3DSMILES-GPT、UniGenX等。这些方法结合Transformer架构的强大建模能力,在多个三维分子建模任务中取得了领先性能。本团队在前期研究中提出了ConfSeq模型,在构象预测、无条件分子生成、形状引导的分子生成、分子表征等任务上均达到了SOTA水准。
针对本次复赛中的条件分子生成任务,CyberForce团队提出了一种新型的三维分子序列表征方法3DmolGPT,旨在将分子的三维结构高效编码为一维序列。该序列不仅包含分子的标准SMILES 表达和原子类型,还融合了三维空间坐标与目标量化性质,实现结构信息与目标属性的统一建模。团队基于GPT-2框架进行训练与生成,通过显式将目标性质嵌入输入序列,使模型在生成过程中具备性质感知能力,从而显著提升生成分子在目标属性维度上的契合度。
材料设计赛道亚军(二等奖)Learn2Win团队-方案简介
Learn2Win团队由上海药物所博士研究生范哲欢单人组队。
团队方案基于Bayesian Flow Networks(BFN)这一先进创新的生成模型框架,针对分子生成任务中的关键挑战——同时精准建模离散的原子类型和连续的原子坐标,进行了优化。相较于目前主流的扩散模型(Diffusion),BFN通过将不同模态的变量转化到参数空间并利用贝叶斯更新函数,实现了更平滑的建模过程,显著提升了对分子结构细微扰动的鲁棒性。在模型架构上,该方案采用了等变SE(3)-Transformer作为图神经网络(GNN)框架,通过注入几何等变性的归纳偏置(inductive bias),确保模型在生成过程中遵循三维空间的物理对称性(如旋转和平移不变性),这一设计使模型能够捕获真实分子的几何规律,提升了数据的利用效率。在评估阶段,团队进一步训练了一个能量预测器,用于对生成分子的能量进行快速评估,并通过与目标能量的均方误差(MSE)挑选最优模型。这一方法避免了生成时依赖耗时的量子化学计算,同时能快速验证模型训练的效果。
创新药赛道亚军(二等奖)碱基互补配队团队-方案简介
碱基互补配队团队由上海药物所博士研究生王星又、陈铭安组成。
RNA逆折叠是计算生物学中的一个核心概念,指设计特定的RNA序列,使其能够折叠成预定的目标RNA结构。这一过程与传统的RNA折叠(即从已知序列预测其结构)形成鲜明对比,因其在设计功能性RNA分子方面的广泛应用而备受关注,涉及临床医学、工业生产等多个领域。
比赛中,该团队提出一种高效的图神经网络(GNN)方案。他们将RNA结构转化为k-近邻图,通过设计物理意义明确且信息丰富的节点与边特征,全面地描述了从单个残基的局部构象到残基间的空间相互作用。
团队方案的核心优势体现在三个创新点上:第一,所有特征均被设计为旋转平移不变特征。这一关键处理使得模型无需在训练中学习复杂的三维空间变换,从而极大地降低了对数据量的依赖。对于规模有限的竞赛数据集,这能让模型更高效地收敛,并专注于学习RNA结构与序列之间的内在生物学规律,而非通用的几何学知识。第二,引入一个关键的辅助学习任务。在训练过程中,模型不仅需要完成主任务,还需同时预测每条图边上两个残基碱基之间的距离。该距离是判断碱基配对与碱基堆叠等核心二级结构的决定性指标。此多任务学习策略能有效引导模型去关注并理解这些对RNA功能至关重要的空间构象,从而生成对逆折叠任务信息量更丰富的特征表示。第三,采用K-Fold交叉验证与模型集成策略以确保模型的鲁棒性。考虑到生物结构数据中固有的噪声,我们将数据集划分为多个折,并在不同的数据子集上独立训练出多个模型。最终,通过投票方式集成了所有模型的预测结果,有效避免了模型对特定样本或噪声的过拟合,确保在未知数据上也能取得可靠、优越的性能。
【导师寄语】
“首先祝贺同学们取得佳绩!这份成绩离不开大家的努力,也得益于实验室老一辈院士和科研前辈们留下的宝贵精神财富。希望你们能传承他们严谨求实、潜心钻研的作风,在AI药物设计这条路上持续学习、勇于攻坚。我们药物发现与设计中心的深厚积淀,是前辈们用智慧和汗水浇灌的,你们如今的每一步突破,都是在延续这份责任与担当。未来道阻且长,保持这份初心,继续沉下心来做研究,争取在药物发现的道路上走得更稳、更远。”
——上海药物所郑明月研究员
活动现场
材料设计赛道颁奖典礼现场(左四:石宇琪,左三:范哲欢)
创新药赛道颁奖典礼现场(左三:王星又)
CyberForce团队成员-石宇琪(左)、曾传龙(右)
Learn2Win团队成员-范哲欢
碱基互补配队成员-陈铭安(左)、王星又(右)
团队合影
(供稿部门:郑明月课题组)