【问题】长文本推理被「显存墙」卡住 在 32K 至 128K 超长上下文场景中,DeepSeek-V3.2-Exp 的 Decode 阶段需维护一个随序列长度线性增长的 Latent Cache。该 Cache 在 128K 下可占用数十 GB GPU 显存,迅速耗尽资源。
结果:
- Batch Size 无法扩大
- GPU 算力大量闲置
- 吞吐上不去,成本下不来
【策略】ESS 以「卸载 + 预取」 为核心:
- 将 Latent Cache 主体卸载到 CPU 内存
- 仅在 GPU 动态保留小而精的热点子集
- 在每步 Decode 前主动预取所需数据回 GPU
完全无损精度,打破 Batch Size 对 GPU 显存的依赖。
【方案】三层协同实现高效「卸载 + 预取」:
1. 高带宽传输,让数据「搬得快」🚀
挑战:Latent Cache 仅 656 字节、访问离散,传统拷贝带宽 <1 GB/s
方案:
- 基于 UVA,GPU 直访 CPU pinned memory
- 自研 FlashTrans 算子,聚合小请求、消除调度开销
效果:H2D/D2H 带宽达 37–43 GB/s 📈
2. 智能预取,让数据「搬得准」🎯
挑战:预取不准 → 无效搬运 → 性能反降
方案:
- 利用 Latent Cache 的强时间局部性
- GPU 用 LRU 管理 Sparse Memory Pool
- Prefill 阶段末尾 Top-K 条目预热缓存(LRU-Warmup)
效果:显著降低 Cache Miss
3. 计算通信重叠,让搬运「不挡路」🔄
挑战:Decode 计算量小,难掩传输延迟
方案:
- DA Overlap:用 Attention 前置计算掩盖 Latent Cache 预取延迟
- DBA Overlap:长上下文下沿 Batch 拆 Indexer,扩大重叠窗口
效果:数据搬运隐藏于计算流水线,关键路径无阻塞
【价值】吞吐显著提升 ✨
基于高精度模拟器测试结果,数据如下:
- 32K 上下文:吞吐提升 69.4%
- 128K 上下文:吞吐提升 123%
→ 显著降低长文本推理成本💰
更多详细内容,请阅读 ESS 技术报告全文:https://arxiv.org/abs/2512.10576。
提升超长上下文本推理吞吐,百度百舸 ESS 技术报告新鲜奉上
张小明
前端开发工程师
字节跳动UI-TARS开源:重新定义GUI交互自动化,效率提升300%的多模态智能体
字节跳动UI-TARS开源:重新定义GUI交互自动化,效率提升300%的多模态智能体 【免费下载链接】UI-TARS-2B-SFT 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-2B-SFT 导语 字节跳动正式开源UI-TARS多模态智能体模型&#x…
6GB显存玩转2K超高清AI绘画:腾讯混元Image 2.1 GGUF版本彻底打破硬件壁垒
6GB显存玩转2K超高清AI绘画:腾讯混元Image 2.1 GGUF版本彻底打破硬件壁垒 【免费下载链接】hunyuanimage-gguf 项目地址: https://ai.gitcode.com/hf_mirrors/calcuis/hunyuanimage-gguf 导语 腾讯混元Image 2.1推出GGUF轻量化版本,将专业级2K图…
罗德里格斯旋转公式详解
罗德里格斯旋转公式详解 一、历史渊源 罗德里格斯旋转公式以法国数学家奥利安罗德里格斯的名字命名,他在1840年的一篇论文中首次系统地描述了这一公式。然而,这一公式的历史可以追溯到更早的时期: 1775年:莱昂哈德欧拉发现了描述刚…
APS:生产排程的“围棋大师”——在万千约束中寻找最优解的智能规划师
⚖️ APS:生产排程的“围棋大师”——在万千约束中寻找最优解的智能规划师想象一下这样的对弈:棋盘是拥有200台设备、500名工人、3000种物料的生产车间,棋子是1000个客户订单,规则是200条工艺约束,目标是在15分钟内给出…
腾讯开源Hunyuan-GameCraft:用AI重构游戏视频生成逻辑,RTX 4090即可制作3A动态内容
导语 【免费下载链接】Hunyuan-GameCraft-1.0 Hunyuan-GameCraft是腾讯开源的高动态交互式游戏视频生成框架,支持从参考图和键鼠信号生成连贯游戏视频。采用混合历史条件训练策略与模型蒸馏技术,兼顾长视频一致性与推理效率。基于百万级AAA游戏数据训练&…
共建亚太·共同富裕
亚太经合权威项目正式启动 —— 官方说明会在大湾区隆重举行,环球版APP即将面世(中国大湾区)在全球资本加速流动与亚太区域合作全面深化的时代背景下,亚太经合项目迎来了具有历史意义的重要里程碑。近日,由商务部体系联…