Claude CLI 缓存陷阱：为什么用第三方模型时 token 会暴涨 10 倍？-平芜编程栈

一个开发者的真实经历

上周，我收到一位朋友的微信：

“我用 Claude Code 接 DeepSeek API，明明代码没怎么变，token 消耗却突然涨了好几倍，一天就把额度用完了。”

这个情况不是个例。在 GitHub 上，至少有 80 多个相关 issue，核心问题都指向同一个点——Claude CLI 默认添加的 CCH（Claude Code Attribution Header）导致第三方服务的缓存失效。

问题到底出在哪？

让我们先搞清楚什么是 CCH。

Claude Code 每次向模型发送请求时，会在系统提示词（system prompt）的最开头插入一段特殊字符串，格式类似这样：

anthropic-attribution: cch=abc123-def456-ghi789-jkl012

这段字符串相当于一个"请求指纹"，每次请求都不一样。

缓存机制是怎么工作的？

很多第三方 API 服务（包括各种中转站、代理网关）都有提示词缓存机制：

当你发送一个请求时，服务会把请求内容的开头部分作为缓存 key
如果下次请求的开头和之前一样，就直接用缓存，不用重新计算
这样既省时间，又省 token

CCH 为什么会让缓存失效？

问题就在这里——缓存比对通常是按"开头内容"来算的。

Claude Code 每次在开头塞的 CCH 都在变，第三方服务就会以为这是个全新的请求，缓存完全失效，只能从头开始计算。

结果就是：响应变慢，token 消耗暴涨。

为什么官方 API 没事？

Anthropic 自家的服务器认识这个 CCH，算缓存时会自动把它忽略掉，所以官方渠道不受影响。<

为什么AI终于能进车间了？从聊天工具到生产力，这三件事正在发生

中石化车间里的AI 2026年5月，中石化发布了"烽火"工业智能体。这个智能体不是用来聊天的，而是能直接操作工业软件、分析生产数据、跑仿真。它是石油化工行业第一个真正能进车间的数字专家。在这之前，AI在工业场景里的应用，大多停留在"数据分析"层面…

李华

HCDG开发者训练营 X G-Star Gathering Day 南京站

本次 G-Star Gathering Day 南京站，由 AtomGit 与华为云开发者发展与支持部 HCDG 联合发起，旨在打破学术与产业、大厂与开发者之间的信息壁垒。我们邀请了来自南京工业大学、华为云、文兜智写以及鸿蒙社区的资深专家，通过 4 场深度技术分享&…

李华

AutoLegalityMod：一键生成100%合法宝可梦的终极PKHeX插件

AutoLegalityMod：一键生成100%合法宝可梦的终极PKHeX插件【免费下载链接】PKHeX-Plugins Plugins for PKHeX 项目地址: https://gitcode.com/gh_mirrors/pk/PKHeX-Plugins 还在为手动编辑宝可梦数据而烦恼吗？想要快速获得对战级宝可梦却担心数据…

李华

rk3576 sai tdm调试

RK3576 SAI TDM 调试驱动HAL 层SO 修改SO 编译audio_policy_configuration.xml修改调试&验证调试信息抓取送往驱动前的原始数据dumpsys配置 SAI1 输出 16 声道数据驱动采用外挂 DSP 的方案，只管输出数据就行 --- a/common/kernel-6.1/arch/arm64/boot/dts/ro…

李华

答辩加分秘籍！长江学者特聘教授专属PPT定制

长江学者特聘教授答辩，拼的不只是科研硬实力，PPT更是“第一印象分”关键！很多学术大佬深耕科研多年，成果满满，却栽在PPT上——排版杂乱、重点不突出、学术质感不足，明明实力够硬，却没能在答辩现…

李华

智谱AI推出ZCube组网架构：大模型推理性能与成本双突破，重构智算基础设施

在大模型推理规模持续扩张、长上下文与智能体任务成为主流的行业背景下，网络架构已成为制约AI算力效率的核心瓶颈。 2026年5月21日，智谱AI 联合驭驯网络、清华大学正式宣布，新一代 ZCube组网架构已在 GLM‑5.1 coding 生产环境完成规模化…

李华