最近,咱们国家的科研团队搞出了个挺厉害的东西,叫SNPbag,这是一个基因大模型。这个模型特别适合用来搞基因组学研究,把AI技术给深度融合进去了,让人不禁感叹,真的挺酷的。 最近在上海发布了这个模型,这是个大事件。参与的机构有上海飞瀑智能科技有限公司、德国莱比锡大学、华大基因研究院还有中国科学院。他们这些科研人员把重点放在了解决基因组数据解读时的计算难题上。 咱们人体的基因有很多很多序列,超过了30亿个碱基对。不过,其实只有0.1%的差异决定了每个人的不同性,主要表现为单核苷酸多态性(SNP)。所以,如何快速、准确地解读这些SNP数据里的遗传信息,就成了现在生物和精准医疗领域很头疼的问题。 这个SNPbag模型直接把目光对准了几百万个关键的SNP位点,直接给这个部分建模。这样一来,就节省了很多计算资源,效率一下子就上来了。他们采用了Transformer架构,这个在自然语言处理领域非常成功的技术。让AI对着100万个模拟基因组数据做“完形填空”,慢慢地就掌握了约600万个常见SNP位点之间的复杂规律。 徐国华是项目主要参与者之一,他在诺贝尔奖得主斯万特·佩博团队待过。他说,SNPbag是目前国际上专门针对人类SNP数据训练的少数几个大语言模型之一。成功的关键在于需要对遗传学规律有深刻理解,还要对大规模人工智能模型掌握得好。唐鲲是飞瀑科技的创始合伙人兼首席科学家,他也强调说跨学科团队才能突破技术壁垒。 跟传统方法相比,SNPbag在精度和速度上都有很大提升。它能精确地区分遗传背景相似的群体,还能推断亲缘关系远到12代。而且处理速度比传统方法快几十倍甚至上百倍。除此之外,SNPbag还能压缩数据和加密数据呢!能把几百万行的SNP信息压缩成很小的体积。 这次发布了SNPbag基因大模型,不仅展示了我国科研力量在生物计算与AI融合方面的创新活力和巨大潜力,还体现了跨学科合作在攻克科技难题时的重要作用。随着这项技术不断发展成熟落地,相信很快就能揭开更多生命遗传密码的奥秘!