人工智能破译基因"暗码" 非编码区研究取得重大突破

人类基因组由约30亿个碱基对组成,其中只有2%的编码区直接参与蛋白质合成,其余98%的非编码区长期被称为“基因天书”,功能与调控机制一直难以厘清。非编码区虽然不直接编码蛋白质,却在基因表达、剪接和染色质结构等关键过程中发挥重要作用;一旦发生异常变异,也可能成为多种疾病的诱因。受限于技术手段,科学界长期难以对非编码区的复杂功能进行系统解析。2024年诺贝尔化学奖得主戴米斯·哈萨比斯及其团队提出人工智能模型AlphaGenome,为该难题提供了新的解决方案。该模型可处理长达百万碱基的DNA序列,并以单碱基分辨率预测RNA表达量、剪接结构、染色质可及性等近6000项调控特征。与以往方法相比,AlphaGenome兼具长序列分析能力与高精度解析能力,也突破了传统模型功能较为单一的限制,被视为首批能够较为全面解读非编码区功能的通用工具之一。 这一进展对医学研究具有直接影响。以癌症为例,AlphaGenome已用于解析T细胞急性淋巴细胞白血病有关机制,帮助定位非编码区突变如何触发癌基因异常激活,为后续靶向药物研发和个体化治疗策略提供线索。,它也有望提升罕见病和遗传病的诊断效率。许多过去难以追溯病因的病例可能与非编码区突变有关,而该模型能够更快筛查潜在致病变异,为临床提供更明确的判断依据。 从更宏观的角度看,AlphaGenome的出现意味着生命科学在理解基因组调控层面迈出关键一步。它在一定程度上补足了非编码区功能研究的工具缺口,也为更梳理基因调控网络、研究生命活动的底层机制提供了新的技术路径。随着模型和数据体系持续完善,相关能力未来也可能延伸至农业育种、生态研究以及合成生物学等领域。

破译非编码区不是简单地“把未知变成确定”,而是把长期模糊的生物学黑箱转化为可推理、可验证的研究路径。面向未来,只有将技术进步与科学审慎、伦理规范和临床需求更紧密地结合,才能让对“基因天书”的解读从科研前沿走向可普惠的医学价值,在守住安全底线的同时,为生命科学与健康事业打开更大的空间。