news 2026/5/30 17:51:48

AI破解基因组天书,可分析1兆碱基,谷歌DeepMind模型AlphaGenome登《Nature》封面

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI破解基因组天书,可分析1兆碱基,谷歌DeepMind模型AlphaGenome登《Nature》封面

来源:ScienceAI

编辑:ScienceAI

基因组如同一本细胞运行的「操作指南」,详尽记录着生物体从组装到运作的全部指令,掌控着生命活动的每个环节。

然而,这是一本由 DNA 编码的「天书」,并且字母排版错误 —— 基因变异就可能导致生物体产生重要改变。解读基因组序列变异的影响是生物学领域的关键挑战。

基于此,谷歌 DeepMind 的研究人员提出了 AlphaGenome,它以 1 兆碱基的 DNA 序列作为输入,能够预测数千个功能基因组轨迹,最高可达单碱基对分辨率,涵盖多种模态,包括基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图谱、剪接位点使用情况以及剪接连接点的坐标和强度。今天,研究论文登上了最新一期《Nature》杂志封面。

论文地址:https://www.nature.com/articles/s41586-025-10014-0

目前,AlphaGenome 已开放非商业使用,可以通过 AlphaGenome API 获取。

开源地址:https://github.com/google-deepmind/alphagenome

AlphaGenome

目前,科学家所观察到的人类遗传变异中,超过 98% 是非编码变异。而我们已有的工具往往仅专注于另外 2% 的基因组序列。非编码变异位于蛋白质编码区之外,由于其可能引发多种维度的分子结果,因此解读起来尤其困难。

为了更准确、更快速且多模态、多维度地解码基因组,DeepMind 的研究人员开发了 AlphaGenome,它将多模态预测、长序列上下文和碱基对分辨率整合到一个框架中。

AlphaGenome 模型以长达 100 万个碱基对的长 DNA 序列作为输入,并预测数千种表征其调控活性的分子特性。它还可以通过比较突变序列与未突变序列的预测值来评估基因变异或突变的影响。

预测的特性包括基因在不同细胞类型和组织中的起始和终止位置、基因剪接的位置、产生的 RNA 数量,以及哪些 DNA 碱基可接近、彼此靠近或与某些蛋白质结合。

训练数据来自大型公共联盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些联盟通过实验测量了这些特性,涵盖了数百种人类和小鼠细胞类型和组织中重要的基因调控模式。

AlphaGenome 架构使用卷积层初步检测基因组序列中的短模式,使用 Transformer 在序列的所有位置传递信息,最后使用一系列层将检测到的模式转化为不同模态的预测。在训练期间,此计算分布在多个互连的张量处理单元 (TPU) 上,用于处理单个序列。

该模型基于 DeepMind 之前的基因组学模型 Enformer,并与 AlphaMissense 相辅相成,后者专门对蛋白质编码区内变异的影响进行分类。

实验性能

AlphaGenome 可以预测单个 DNA 字母的改变会如何影响基因表达,并改变其 RNA 和蛋白质产物。其他人工智能系统可以对蛋白质编码基因中约 2% 的基因组进行部分分析,而 AlphaGenome 是第一个对整个基因组进行同样分析的系统。

在人类和小鼠基因组上进行训练后,在 26 项变异效应预测评估中,AlphaGenome 有 24 项达到或超越了各自领域的最强外部模型水平;在 24 个基因组轨迹预测任务中,有 22 个取得了 SOTA 性能。

AlphaGenome 能够同时评估所有模态下的变异效应,从而准确地重现了 TAL1 致癌基因附近临床相关变异的机制。

研究人员表示 AlphaGenome 将在以下三个方面带来影响:

1. 疾病理解:通过更准确地预测基因破坏,AlphaGenome 可以帮助研究人员更精准地查明疾病的潜在病因,并更好地解释与某些性状相关的变异的功能影响,从而可能发现新的治疗靶点。该模型尤其适用于研究可能产生巨大影响的罕见变异,例如导致罕见孟德尔遗传病的变异。

2. 合成生物学:它的预测结果可用于指导具有特定调控功能的合成 DNA 的设计 —— 例如,仅激活神经细胞中的基因,而不激活肌肉细胞中的基因。

3. 基础研究:它可以通过协助绘制基因组的关键功能元件图谱并明确其作用,识别调控特定细胞类型功能的最重要 DNA 指令,从而加速生物学家对基因组的理解。

尽管如此,AlphaGenome 仍然存在局限性。

与其他基于序列的模型一样,准确捕捉非常远的调控元件(例如距离超过 10 万个 DNA 碱基的调控元件)的影响仍然是一个持续的挑战。研究人员表示,未来研究的一个重点是进一步提升该模型捕捉细胞和组织特异性模式的能力。

参考内容:

https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/

https://www.science.org/content/article/deepmind-s-latest-ai-tool-makes-sense-changes-human-genome

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/21 10:16:14

FIFO模式选择背后的设计哲学:Standard与FWFT的工程权衡

FIFO模式选择背后的设计哲学:Standard与FWFT的工程权衡 在数字电路设计中,FIFO(First In First Out)作为数据缓冲的核心组件,其模式选择往往决定了整个系统的性能边界。当我们在Vivado中面对Standard FIFO和First-Wor…

作者头像 李华
网站建设 2026/5/22 0:15:14

VibeVoice使用全记录:从部署到生成第一段语音的每一步

VibeVoice使用全记录:从部署到生成第一段语音的每一步 你有没有试过,花半小时配置一个TTS工具,结果生成的第一句话听起来像机器人在念说明书?或者好不容易跑通命令行,却卡在“怎么换音色”“怎么加停顿”这种基础问题…

作者头像 李华
网站建设 2026/5/23 11:03:21

大规模内容筛查利器:Qwen3Guard-Gen-WEB压力测试报告

大规模内容筛查利器:Qwen3Guard-Gen-WEB压力测试报告 在AI内容爆发式增长的当下,一个被长期低估却日益紧迫的问题正浮出水面:当单日审核量从千条跃升至百万级,传统安全模型能否扛住真实业务洪峰? 我们见过太多演示场…

作者头像 李华
网站建设 2026/5/23 12:27:14

如何用XUnity.AutoTranslator实现Unity游戏实时翻译?完整操作指南

如何用XUnity.AutoTranslator实现Unity游戏实时翻译?完整操作指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator XUnity.AutoTranslator是一款专为Unity游戏设计的实时翻译工具,能…

作者头像 李华
网站建设 2026/5/25 19:25:57

51单片机与DS18B20联动的智能温度监控系统设计

1. 项目背景与核心功能 温度监控系统在工业生产和日常生活中扮演着重要角色。传统的水银温度计已经无法满足现代自动化需求,而基于51单片机和DS18B20的数字温度监控方案正成为主流选择。这个组合不仅能实现高精度测量,还能轻松集成报警和显示功能。 我…

作者头像 李华
网站建设 2026/5/29 10:43:09

用Z-Image-Turbo生成宠物写真,效果堪比真实摄影

用Z-Image-Turbo生成宠物写真,效果堪比真实摄影 你有没有试过给自家毛孩子拍一组专业级写真?灯光、布景、抓拍时机、后期修图……光是想想就让人头大。更别说普通手机镜头很难还原毛发的细腻质感和眼神里的灵动光芒。但最近我用阿里通义Z-Image-Turbo W…

作者头像 李华