我国科学家突破药物筛选技术瓶颈 基因组规模虚拟筛选平台实现百万倍效能跃升

问题:创新药研发中,“从靶点到先导化合物”的早期发现阶段往往决定后续研发效率。

然而,当前对可成药靶点的系统性探索仍较有限。

据研究团队介绍,现阶段靶向药物研究仅覆盖全部潜在可成药靶点的一小部分。

与此同时,人体内潜在靶点数量庞大、结构类型复杂,候选小分子又分布在极为广阔的化学空间之中,如何在尽可能短时间内从海量分子中找出“有希望的一批”,成为制约新靶点研究与新药诞生的重要瓶颈。

原因:传统虚拟筛选路径主要依赖分子对接等计算手段,需要对蛋白与小分子进行逐对打分评估,计算量随靶点数量和候选分子规模呈指数级膨胀。

研究团队以具体场景作出说明:若针对约1万个蛋白靶点、每个靶点面对10的9次方规模的候选分子进行筛选,需完成约10的13次蛋白—配体打分。

即便采用单台计算机连续运行,也可能耗费数百年机时。

由此可见,传统方法在大规模靶点探索面前易出现“算力时间成本不可承受”的现实矛盾,直接限制了研究从少数热门靶点向更广阔靶点空间拓展。

影响:在时间与算力的双重约束下,许多潜在重要靶点难以得到充分验证,化学空间也难以被系统搜索,导致药物早期发现的效率与成功率受到影响。

对基础研究而言,这会影响蛋白功能机制的进一步揭示;对产业转化而言,则可能延长研发周期、抬升成本,并使部分具有临床价值的新方向迟迟难以进入实质性研发阶段。

尤其在肿瘤、传染病、罕见病等领域,靶点多样、机制复杂、临床需求迫切,如何提升早期筛选的吞吐能力与质量,成为推动药物创新的重要环节。

对策:为破解上述难题,清华大学智能产业研究院(AIR)兰艳艳教授联合生命学院、化学系团队研发DrugCLIP平台,将传统“逐一对接计算”的模式转变为“在向量空间进行高效语义检索”的新范式。

其核心思路是把蛋白口袋与小分子进行表示学习,转化为可检索的向量表达,从而用更高效的匹配检索替代大量逐对打分计算,实现速度跃升。

团队介绍,在硬件配置方面,基于包含128核中央处理器与8张图形处理器的计算节点,该平台即可实现万亿级蛋白口袋—小分子对打分的日吞吐能力,使过去难以想象的规模化筛选成为可操作流程。

更关键的是,平台在保证预测性能的同时,大幅压缩计算时间,将原本可能需要“数百年”的任务压缩到“一天机时”的量级,并贯通了从蛋白结构预测到药物发现的关键环节,推动基因组规模筛选由设想走向实践。

相关成果已于近日在线发表于国际学术期刊《科学》。

前景:依托DrugCLIP,联合团队首次完成覆盖人类基因组规模的虚拟筛选项目,覆盖约1万个蛋白靶点、2万个蛋白口袋,对超过5亿个类药小分子进行分析筛选,富集得到超过200万个潜在活性分子,构建了目前已知最大规模的蛋白—配体筛选数据库,并面向全球科研社区免费开放。

数据库的开放不仅有助于提高科研复用效率,也有望促进不同研究团队在新靶点验证、候选分子优化、作用机制研究等方面形成协同。

与此同时,筛选服务平台同步上线,支持用户上传靶点和蛋白口袋开展定制化筛选;截至论文发表前的半年内,平台已服务1400余名用户完成13500余次筛选,显示出较强的应用需求与推广潜力。

面向下一步发展,团队表示将与科研与产业生态伙伴加强合作,重点在抗癌、传染病、罕见病等方向加速新靶点发现与首创新药探索。

业内观点认为,随着数据规模不断扩大、模型持续迭代以及算力基础设施进一步完善,这类超高通量虚拟筛选平台有望在药物早期研发中形成“标准化工具链”,推动从经验驱动走向数据与计算驱动的更高效范式。

从"大海捞针"到"精准定位",DrugCLIP平台的成功研发体现了人工智能技术在生命科学领域的深度赋能。

这不仅是一次算法的突破,更是科学研究方法论的创新。

当前,全球新药研发正面临前所未有的挑战与机遇,而以人工智能为代表的新技术正在重塑这一领域的竞争格局。

中国科研团队在这一关键领域的领先突破,为我国生物医药产业的自主创新奠定了坚实基础,也为全球医学进步贡献了中国智慧。