news 2026/7/3 8:58:00

Meta:LLM预填充上下文缓存策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Meta:LLM预填充上下文缓存策略

📖标题:Let’s (not) just put things in Context: Test-Time Training for Long-Context LLMs
🌐来源:arXiv, 2512.13898

🌟摘要

训练和架构策略的进展使 LLM 在上下文长度上具有数百万个标记。然而,经验证据表明,这种长上下文 LLM 可以比可以可靠地使用的文本消耗更多的文本。另一方面,已经表明,在涉及多步推理的具有挑战性的任务上,推理时间计算可用于扩展 LLM 的性能,通常是通过生成思维标记。通过对沙盒长上下文任务的受控实验,我们发现这种推理时间策略显示出快速递减的回报,并且在长上下文中失败。我们将这些失败归因于分数稀释,这是静态自注意力固有的现象。此外,我们表明当前的推理时间策略不能在一定条件下检索相关的长上下文信号。我们提出了仅查询测试时间训练 (qTTT),它通过对给定上下文的目标梯度更新,可证明克服了静态自注意力的局限性。我们发现,如何花费推理时间计算的简单转变会导致模型和长上下文基准的性能持续显着提高。qTTT 在 LongBench-v2 和 ZeroScrolls 基准的子集上平均导致 Qwen3-4B 的大量 12.6% 和 14.1% 点改进。结论是实用的:对于长上下文,少量特定于上下文的训练比当前推理时间缩放策略(如产生更多思考标记)更好地使用推理计算。

🛎️文章简介

🔸研究问题:如何有效利用推理时计算资源来改善长上下文的检索和推理能力?
🔸主要贡献:论文提出了一种新的测试时训练方法(qTTT),通过在长上下文任务中进行查询更新,显著提高了模型的性能。

📝重点思路

🔸引入查询仅测试时训练(qTTT),通过一次预填充缓存键值对(K/V),然后仅对查询投影进行轻量级梯度更新,从而减少了计算开销。
🔸利用实验分析验证了传统的推理时间计算策略在长上下文中的表现不佳,强调了qTTT的优势。
🔸通过设置受控的合成任务,深入研究了长上下文失败的原因,如“评分稀释”现象,并提出qTTT可以有效应对这一挑战。
🔸采用多种真实世界数据集(如ZeroScrolls和LongBench-v2)进行评估,覆盖多个任务和模型规模(1.7B到8B参数)。

🔎分析总结

🔸实验结果表明,qTTT在绝大多数测试场景下都能显著超越标准的推理解码和基于“思考”代币的策略,尤其是在代码理解和多文档问答等多跳推理任务中,性能提升超过20%。
🔸随着上下文长度的增加,传统方法在性能上呈现迅速下降的趋势,而qTTT则保持了较高的准确率,显示出其在长上下文处理上的有效性。
🔸在结构固定、不改变预训练和输入数据的情况下,qTTT成功提高了目标与干扰物之间的分离度,缓解了长上下文推理中的问题。
🔸qTTT方法相较于传统推理时间计算的思路具有更低的计算费用,同时提升了模型在长文档情境下的性能。

💡个人观点

论文的创新点在于高效的计算调整策略,通过单次填充来建立一个持久的上下文缓存,并进行针对性的查询调整,以优化长上下文的推理性能。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 11:53:09

麦浪KTV 3.15.63| 家庭KTV,丰富的歌曲库,支持手机点歌和评分系统

麦浪KTV是一款专为家庭娱乐设计的K歌应用,让您无需出门即可享受KTV的乐趣。这款应用提供了丰富的歌曲库和高清播放体验,使您能够随时随地与家人或朋友一起嗨唱。主要特点包括:丰富的歌曲库,涵盖各种风格的歌曲,满足不同…

作者头像 李华
网站建设 2026/7/2 22:56:21

如何通过智能化手段增强机房动力环境监控系统的安全性与运行效率?

在当今科技迅速发展的背景下,机房动力环境监控系统的智能化建设显得尤为关键。通过实时的数据监测,管理者可以有效跟踪机房内的电能消耗和温湿度变化。当这些指标超过预设的安全范围时,系统能及时给予反馈,帮助管理员做出迅速反应…

作者头像 李华
网站建设 2026/6/30 21:32:50

基于Java的商务执法随机抽检智慧管理系统的设计与实现全方位解析:附毕设论文+源代码

1. 为什么这个毕设项目值得你 pick ? 商务执法随机抽检智慧管理系统结合了执法人员管理、抽检区域管理、抽检领域管理、抽检对象管理和抽检记录管理等功能模块,相比传统选题更具创新性和实用性。该系统采用SpringMVC开发框架和MySQL数据库,使零基础开发…

作者头像 李华
网站建设 2026/6/29 19:03:24

智能物流路径规划系统技术指南

智能物流路径规划系统技术指南一、技术路线优劣势分析1. 传统算法路线 优势:计算稳定性强(如Dijkstra算法保证最优解)资源消耗低,适合嵌入式设备劣势:动态环境适应性差,$$ \Delta t \to 0 $$ 时响应滞后多目…

作者头像 李华
网站建设 2026/6/26 15:27:31

力扣解题步骤

核心思路回顾通过哈希表存储「已遍历元素值 → 下标」的映射,遍历数组时计算当前元素的 “补数”(目标值 - 当前值),若补数存在于哈希表中,则直接返回结果;若不存在,将当前元素存入哈希表&#…

作者头像 李华