news 2026/4/5 22:35:46

谷歌新架构突破Transformer超长上下文瓶颈!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
谷歌新架构突破Transformer超长上下文瓶颈!

Transformer的提出者谷歌,刚刚上来给了Transformer梆梆就两拳*(doge)*。

两项关于大模型新架构的研究一口气在NeurIPS 2025上发布,通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token

两项新成果分别是:

  • Titans:兼具RNN速度和Transformer性能的全新架构;
  • MIRAS:Titans背后的核心理论框架。

核心要解决的,就是Transformer架构在处理超长上下文时的根本局限:计算成本会随着序列长度的增加而猛增。

不得不说,从Nano Banana到Gemini 3 Pro,再到基础研究方面的进展,谷歌最近一段时间就是一个穷追猛打的架势。

也难怪奥特曼要给OpenAI拉“红色警报”了。

突破Transformer超长上下文瓶颈

现在AI领域已经达成共识的是,Transformer虽好,但自注意力机制的效率问题正在日益凸显:每个token都要“关注”其他所有token,导致计算量和内存消耗与序列长度的平方成正比*(O(N2))*。

学界已经探索了多种解决方案,比如线性循环网络*(RNNs)和状态空间模型(SSMs)*等。

这类模型通过将上下文压缩到固定大小来实现快速线性扩展。问题是,这种方法仍然无法充分捕捉超长序列中的丰富信息。

Titans + MIRAS,是谷歌提出的新架构和理论蓝图,目的是将RNN的速度和Transformer的性能结合到一起。

其中Titans可以理解为具体的工具,而MIRAS则是理论框架。两者共同推进了测试时记忆的概念:

即模型在运行过程中,无需专门的离线重新训练,就能通过整合更多信息来维持长期记忆。

本质上,可以说这个新架构的重点,是重新定义Transformer的“记忆模式”,将其进化为一种更强大的混合架构。

Titans:在线将上下文扩展至200万

具体来说,Titans引入了一种新的神经长期记忆模块

与传统RNN中固定大小的向量或矩阵记忆不同,该模块本质上是一个在测试时动态更新权重的多层感知机*(MLP)*。

其独特之处就在于,通常模型训练完后,权重就固定了,但在Titans中,这个记忆模块在推理阶段依然在更新。

MAC(Memory as Context)是Titans架构的一种主要变体,设计思路是,将长期记忆作为一种额外的上下文信息,直接“喂”给注意力机制。

MAC并没有改变注意力机制本身的计算方式,而是改变了注意力机制的输入来源。它把从长期记忆中提取的信息,当作是历史信息的“摘要”,与当前的短期输入一起进行处理。

MAC架构

研究人员发现,这个新的记忆模块能显著提升模型的表达能力,使其在不丢失重要上下文的情况下概括并理解大量信息。

更为重要的是,Titans并非被动地存储数据,而是能在输入数据中,主动学习如何识别并保留连接各个token的重要关系和概念。其中的关窍是“意外”。

在人类心理学中,我们很容易忘记一些常规的、预期之内的事情,但往往对“意外事件”印象深刻。

对于Titans也存在类似的情况。研究人员将其定义为“惊喜指标”(surprise metric):指模型检测到当前记忆的内容和新输入内容之间存在较大差异。

  • 低意外度:比如新词是“猫”,而模型的记忆状态已经预测到会有一个动物词,那么梯度*(意外度)*就很低。这时模型仅将这个词作为短期记忆来处理即可。
  • 高意外度:如果模型的记忆状态是正在总结一份严肃的财务报告,而新的输入是香蕉皮的图片*(意外事件)*,则意外度将非常高。这表明新的输入很重要或异常,需要优先将其存储到长期记忆模块中。

这样对“意外”的判断使得Titans架构能够有选择地更新长期记忆,从而保持快速和高效。

实验表明,Titans的MAC变体能够有效将上下文窗口扩展到200万,并在“大海捞针”任务中保持高准确率。

MIRAS:序列建模的统一框架

如果说Titans是跑车,那么MIRAS就是背后的核心引擎。

MIRAS核心目标是让模型在推理阶段也能进行学习。其独特之处在于,它不把不同的架构视为不同问题的解决方法,而是将其视为解决同一问题的不同途径:

高效地将新信息与旧信息相结合,同时又不遗漏关键概念。

MIRAS将任意序列模型结构为4个关键设计选择:

  • 内存架构:存储信息的结构(如向量、矩阵,或Titans中的MLP)。
  • 注意力偏差:模型优化的内部学习目标,决定模型优先考虑的内容。
  • 保留门控*(Retention Gate)*:即“遗忘机制”,用于平衡“学习新知识”与“保留旧记忆”。
  • 记忆算法:用于更新记忆状态的优化算法。

现有的序列模型大多依赖均方误差*(MSE)*或点积相似度来更新记忆。

MIRAS的另一个创新,是引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制。

谷歌的研究人员基于MIRAS,创建了三个特定的无注意力模型:

  • YAAD:使用更温和Huber Loss来处理错误,对异常值*(如文档中的拼写错误)*不敏感,鲁棒性更强。
  • MONETA:使用Generalized Norms*(广义范数)*,通过更严格的规则来管理注意力和遗忘,提升记忆稳定性。
  • MEMORA:强制记忆像概率图一样运作,确保信息整合过程的受控和平衡。

实验结果显示,基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2),以及规模相近的Transformer基线模型。

更显著的优势在于,新架构能够处理极长上下文,在参数规模小得多的情况下,性能优于GPT-4等大规模模型。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

作为一名老互联网人,看着AI越来越火,也总想为大家做点啥。干脆把我这几年整理的AI大模型干货全拿出来了。
包括入门指南、学习路径图、精选书籍、视频课,还有我录的一些实战讲解。全部免费,不搞虚的。
学习从来都是自己的事,我能做的就是帮你把路铺平一点。资料都放在下面了,有需要的直接拿,能用到多少就看你自己了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以点击文章最下方的VX名片免费领取【保真100%】

👉AI大模型学习路线汇总👈

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!(全套教程文末领取哈)

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

640套AI大模型报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求:大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能,学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力:大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以点击文章最下方的微信名片添加免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/3 1:16:30

通达信牛马线主图

{}MID:(3*CLOSELOWOPENHIGH)/6; 牛线:(20*MID19*REF(MID,1)18*REF(MID,2)17*REF(MID,3)16*REF(MID,4)15*REF(MID,5)14*REF(MID,6)13*REF(MID,7)12*REF(MID,8)11*REF(MID,9)10*REF(MID,10)9*REF(MID,11)8*REF(MID,12)7*REF(MID,13)6*REF(MID,14)5*REF(MID,15)4*REF(MID,16)3*REF…

作者头像 李华
网站建设 2026/4/3 14:05:32

GPT-5.2大模型全方位解析:从技术优势到实战应用(建议收藏)

GPT-5.2是OpenAI最新发布的强大模型系列,首次在多项基准测试中超越人类专家水平。它支持40万Token上下文窗口,编程能力突出,视觉理解和多步推理能力显著增强,错误率降低38%。尽管单Token成本较高,但凭借更高的Token效率…

作者头像 李华
网站建设 2026/4/5 8:48:06

从零开始学AI智能体:大模型核心原理与实战指南,建议收藏反复研读

本文解析了Agentic AI作为新一代架构范式,突破传统大模型的三大局限。AI智能体需具备感知、目标、规划、执行、交互和自适应六大核心能力,实现从被动响应到主动做事的转变。作为AI产品经理,应思考产品是否真正目标驱动,设计安全护…

作者头像 李华
网站建设 2026/4/2 17:10:51

9400万条全量中文学术论文数据集(支持月更新):涵盖博士、硕士论文及期刊论文的全学科研究资源库,支持NLP模型训练、学术分析与知识图谱构建的高质量数据.

一、引言与背景 在当今人工智能与大数据时代,学术文献作为人类知识的重要载体,承载着科学研究的核心成果与创新思想。随着深度学习技术的飞速发展,自然语言处理(NLP)领域对高质量中文学术语料的需求日益迫切。然而&am…

作者头像 李华
网站建设 2026/4/5 20:58:59

数字化时代企业怎么做,Quick BI 告诉你

数字化时代企业怎么做,Quick BI 告诉你时代背景Quick BI免费试用准备数据集创建工作空间创建数据源创建数据集搭建仪表板空白新建模版新建智能小Q助手智能问数智能搭建最后总结疑问1疑问2疑问3疑问4疑问5时代背景 随着企业数字化转型的加速,数据对于企业…

作者头像 李华
网站建设 2026/4/5 11:56:11

AdMergeX出席鸿蒙生态变现服务研讨沙龙,持续助力中国开发者生态繁荣

2025年12月4日,鸿蒙生态变现服务研讨沙龙在苏州启幕。大会以"新生态、新平台、新机会"为核心锚点,汇聚众多生态伙伴与商业先锋,共同解码鸿蒙生态的融合趋势、鲸鸿动能平台的技术升级以及前沿实战打法。AdMergeX作为鸿蒙生态友好合作…

作者头像 李华