我国科学家突破药物筛选技术瓶颈基因组规模虚拟筛选平台实现百万倍效能跃升

问题：创新药研发中，“从靶点到先导化合物”的早期发现阶段往往决定后续研发效率。

然而，当前对可成药靶点的系统性探索仍较有限。

据研究团队介绍，现阶段靶向药物研究仅覆盖全部潜在可成药靶点的一小部分。

与此同时，人体内潜在靶点数量庞大、结构类型复杂，候选小分子又分布在极为广阔的化学空间之中，如何在尽可能短时间内从海量分子中找出“有希望的一批”，成为制约新靶点研究与新药诞生的重要瓶颈。

原因：传统虚拟筛选路径主要依赖分子对接等计算手段，需要对蛋白与小分子进行逐对打分评估，计算量随靶点数量和候选分子规模呈指数级膨胀。

研究团队以具体场景作出说明：若针对约1万个蛋白靶点、每个靶点面对10的9次方规模的候选分子进行筛选，需完成约10的13次蛋白—配体打分。

即便采用单台计算机连续运行，也可能耗费数百年机时。

由此可见，传统方法在大规模靶点探索面前易出现“算力时间成本不可承受”的现实矛盾，直接限制了研究从少数热门靶点向更广阔靶点空间拓展。

影响：在时间与算力的双重约束下，许多潜在重要靶点难以得到充分验证，化学空间也难以被系统搜索，导致药物早期发现的效率与成功率受到影响。

对基础研究而言，这会影响蛋白功能机制的进一步揭示；对产业转化而言，则可能延长研发周期、抬升成本，并使部分具有临床价值的新方向迟迟难以进入实质性研发阶段。

尤其在肿瘤、传染病、罕见病等领域，靶点多样、机制复杂、临床需求迫切，如何提升早期筛选的吞吐能力与质量，成为推动药物创新的重要环节。

对策：为破解上述难题，清华大学智能产业研究院（AIR）兰艳艳教授联合生命学院、化学系团队研发DrugCLIP平台，将传统“逐一对接计算”的模式转变为“在向量空间进行高效语义检索”的新范式。

其核心思路是把蛋白口袋与小分子进行表示学习，转化为可检索的向量表达，从而用更高效的匹配检索替代大量逐对打分计算，实现速度跃升。

团队介绍，在硬件配置方面，基于包含128核中央处理器与8张图形处理器的计算节点，该平台即可实现万亿级蛋白口袋—小分子对打分的日吞吐能力，使过去难以想象的规模化筛选成为可操作流程。

更关键的是，平台在保证预测性能的同时，大幅压缩计算时间，将原本可能需要“数百年”的任务压缩到“一天机时”的量级，并贯通了从蛋白结构预测到药物发现的关键环节，推动基因组规模筛选由设想走向实践。

相关成果已于近日在线发表于国际学术期刊《科学》。

前景：依托DrugCLIP，联合团队首次完成覆盖人类基因组规模的虚拟筛选项目，覆盖约1万个蛋白靶点、2万个蛋白口袋，对超过5亿个类药小分子进行分析筛选，富集得到超过200万个潜在活性分子，构建了目前已知最大规模的蛋白—配体筛选数据库，并面向全球科研社区免费开放。

数据库的开放不仅有助于提高科研复用效率，也有望促进不同研究团队在新靶点验证、候选分子优化、作用机制研究等方面形成协同。

与此同时，筛选服务平台同步上线，支持用户上传靶点和蛋白口袋开展定制化筛选；截至论文发表前的半年内，平台已服务1400余名用户完成13500余次筛选，显示出较强的应用需求与推广潜力。

面向下一步发展，团队表示将与科研与产业生态伙伴加强合作，重点在抗癌、传染病、罕见病等方向加速新靶点发现与首创新药探索。

业内观点认为，随着数据规模不断扩大、模型持续迭代以及算力基础设施进一步完善，这类超高通量虚拟筛选平台有望在药物早期研发中形成“标准化工具链”，推动从经验驱动走向数据与计算驱动的更高效范式。

从"大海捞针"到"精准定位"，DrugCLIP平台的成功研发体现了人工智能技术在生命科学领域的深度赋能。

这不仅是一次算法的突破，更是科学研究方法论的创新。

当前，全球新药研发正面临前所未有的挑战与机遇，而以人工智能为代表的新技术正在重塑这一领域的竞争格局。

中国科研团队在这一关键领域的领先突破，为我国生物医药产业的自主创新奠定了坚实基础，也为全球医学进步贡献了中国智慧。

我国科学家突破药物筛选技术瓶颈 基因组规模虚拟筛选平台实现百万倍效能跃升