AI实战：省token妙招之【caveman】-平芜编程栈

一个19岁大学生写了这个插件，三天GitHub拿了4000多颗星。它干的事只有一件——让AI说人话，别说废话。结果？token省了65%，但智商一点没降。

说"废话"的AI

我用得最多的就是 Claude Code，日常写代码、调 bug、做 code review。按理说这钱花得值——毕竟它确实帮我干了不少活。但我忍不住翻了翻对话记录，发现了一个让我心塞的事实。

每次我问它一个问题，它总是先说“当然，我很乐意帮你”。然后是一段解释背景的废话。接着才进入正题。最后再来一段总结：“希望这对你有帮助！如果还有问题随时问我。”

这些话，每一句都是 token。每一个 token，都是钱。

更离谱的是，有时候它帮我做一个简单的代码审查，回复能有 500 多 token，其中真正有用的技术建议可能就占 100 个 token，剩下 400 个全是客套话和重复解释。

我忽然意识到一件事：我不是在为"知识"付费，我是在为"废话"付费。

就在我琢磨有啥办法能让 AI 少说点废话的时候，我刷到了一个插件【Caveman】，翻译过来就是"山顶洞人"。

它干的事就一件：让AI"像山顶洞人一样说话"。

不是让AI变笨。是让AI砍掉所有客套话、冗余修饰、虚词废话，只留干货。代码照样准确，技术细节一个不少，就是把"好的呢，让我来帮您"这种话全删了。

Caveman 是什么？

一句话：Caveman 是一个插件，装完之后AI的输出自动从"话痨模式"切成"极简模式"，输出token平均省65%，但技术内容一点不少。

它支持 Claude Code、Codex、Gemini、Cursor、Windsurf、Cline、Copilot 等30多种AI编程代理。不管你用哪个，基本都能装。

装完之后的效果，看个对比就懂了：

问：React组件为什么会重复渲染？

对比	回答	Token
普通AI	“这是一个非常好的问题！React中的重复渲染是很多开发者遇到的常见问题。当你的组件在不必要的情况下重新渲染时，通常是因为……（省略200字背景介绍）……我建议你使用React.memo包裹组件，并且在传递回调函数时使用useCallback。”	~1200
Caveman	“新对象引用每次渲染。内联对象prop = 新引用 = 重新渲染。用useMemo包裹。”	~160

少了87%的token，说的却是同一件事。

再比如问一个安全问题：

普通AI	“当然！我很乐意帮你排查这个认证中间件的token过期问题。让我先看一下你的代码，然后提供一个完整的解决方案。这个问题很可能是由……”
Caveman	“认证中间件bug。Token过期检查用了`<`不是`<=`。修复：”

同样的修复方案，少了83%的废话。

关键点：Caveman 只压缩输出，不碰思考过程。AI在脑子里还是完整推理的，只是在开口说话的时候把废话过滤掉了。

它和"让AI简洁回答"有什么区别？

你可能想：这有什么了不起？我每次让AI “简洁回答” 不就行了？

还真不一样。试过的人都知道：

每次都要手动打 “简洁回答”、“简短回答”、“别废话”——烦不烦？
聊了三轮之后，AI就忘了，又开始长篇大论
“简洁回答” 是一种模糊指令，AI的理解程度不稳定

而 Caveman 做的是系统级的输出规则改写。它通过 Hook 机制在会话启动时就直接改写 AI 的输出风格。不需要你每次手动敲，也不会聊着聊着就"复发"。

下面这个对比更直观：

对比	每次敲"简洁回答"	Caveman
需要手动操作	每次都要	一次安装，永久生效
效果持久性	聊3轮就忘	整个会话期间保持
压缩程度	不稳定，看AI心情	稳定压缩65%左右
支持代码审查	不支持	支持（/caveman-review）
多语言	不一定	你用中文，它回答中文
适用代理	你用的那个	30+代理通吃

怎么装？一条命令

不管你是 Mac、Linux 还是 Windows，打开终端，复制粘贴一行：

Mac 或 Linux 用户，终端里跑一行：

curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

Windows 用户在 PowerShell 里跑：

irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex

30秒搞定。安装脚本会自动检测你装了哪些AI代理，给每个都配上。

装完之后：

输入/caveman开启压缩
输入/caveman lite或/caveman ultra可以切换等级
想关掉恢复正常模式就输入 “normal mode”
输入/caveman-stats看省了多少 token

几种压缩级别，从"简洁"到"电报"

Caveman 有四档：

级别	效果	适用场景
`lite`	去掉填充词和礼貌用语	日常对话，想省但不想太冷
`full`（默认）	完整的原始人模式	编程、技术问答，性价比最高
`ultra`	电报式，极度精简	你在赶时间、或者调试时不想被打扰
`wenyan`	文言文/古汉语	想装逼或者追求极致压缩时用

切级别的方式：/caveman lite、/caveman ultra等。

实战场景

场景一：日常代码编写

这是 Caveman 的主场。你问它一个具体的编码问题，它直接给你答案，不带任何废话。对于已经知道自己要什么的老手来说，效率提升非常明显。

实测：问 Claude “如何在 React 中处理表单提交”，普通模式回复约 450 token，Caveman 模式约 80 token，信息完全一致。

场景二：写代码时debug

深夜 debug，你每问一个问题，AI 先跟你寒暄三句。敲了 Caveman 之后，回答变成：

“第42行。user可能为null。加空值检查。”

三秒钟看完，继续写代码。专注力不用被废话打断。

场景三：批量代码审查

有几十个 PR 要审？用 Caveman 的一行审查模式：

/caveman-review

输出：

L42: 🔴 bug: user null. Add guard.
L78: 🟡 perf: loop inside render. Move to useMemo.

一行一个结论，精准高效。

场景四：记忆文件压缩

你的 CLAUDE.md 或项目配置文件写了几千字？用 Caveman 压缩：

/caveman-compress CLAUDE.md

700字的偏好文件能压到285字（省59%）。每个新会话都少花输入 token，积少成多。

场景五：持续省钱的MCP中间件

如果你用 MCP 工具，Caveman 还提供了一个中间件caveman-shrink，可以压缩工具描述。工具描述通常又长又啰嗦，压缩之后每次调用都省 token。

场景六：批量任务处理

如果你需要对大量文件做重复性操作（比如批量添加类型注解、统一代码风格），Caveman 模式下的 token 节省会被放大——因为每个文件省一点，几百个文件加起来就很可观了。

实测数据：到底能省多少？

GitHub 仓库里有完整的 benchmark 数据，我挑几个关键数字：

输出压缩效果（10个典型任务的平均值）：

普通模式平均每次回答 1214 token；Caveman 模式平均 294 token。平均节省 65%。

最高纪录：解释 React 重渲染 bug，从 1180 token 压到 159 token，省了 87%。

记忆文件压缩效果（5个典型文件平均值）：

原始平均 898 字符，压缩后 481 字符。平均节省 46%。

叠加使用的话：记忆文件省 46% 的输入 token，每个回答省 65% 的输出 token。一个月下来，总 token 消耗大概能腰斩。

要避开的坑

坑1：只省输出，不省思考

Caveman 只压缩输出 token。AI 在脑子里的推理过程一点没省。所以别指望装了它就能大幅降低推理成本——降的是输出成本。好消息是，大多数人用的 API 定价里，输出 token 比输入贵好几倍，所以输出省 65% 已经够香了。

坑2：极少数场景反而更费 token

官方宣称的"省 65%“是一个平均值，实际效果因任务而异。对于本身就很简单的任务（比如"帮我写一个 hello world”），节省空间有限。对于需要大量解释的复杂任务，节省比例会更高。别期望每个场景都能省 75%。

benchmark 里有个例外——实现 React Error Boundary 那个任务，Caveman 模式反而多用了 68% 的 token。

什么原因？因为 Error Boundary 的实现细节比较多，精简表达之后 AI 不得不多解释几轮才说清楚。遇到这种情况，关掉 Caveman 用正常模式就行。

坑3：别在需要"氛围感"的场景用

写小说、写营销文案、写情感充沛的内容——Caveman 会把这些全毁了。它追求的是信息密度，不是情绪表达。该啰嗦的地方就让它啰嗦。

坑4：别在探索性任务里用

Caveman 最适合"你已经知道要什么"的场景。如果你在做技术调研、探索新方案、或者让 AI 帮你头脑风暴，关掉它。让 AI 多说点"废话"，那些推理过程可能是有价值的。

坑5：注意输入 token 的消耗

Caveman 主要压缩输出 token。如果你的输入本身就很大（比如贴了一大段代码让它分析），输出再省也省不了多少。这时候可以配合它的记忆压缩功能，或者自己先精简输入。

坑6：新手慎用 Ultra 模式

Ultra 模式的压缩力度极大，回复几乎只有关键词。老手看着高效，但如果你对一个技术不太熟，这种回复可能让你一头雾水。建议新手从 Lite 模式开始，觉得太啰嗦再切 Full。

最佳实践

第一，日常编码用 Full 模式，需要深度思考时切回普通模式。这是最实用的组合。

第二，善用模式切换。Caveman 支持随时开关，输入normal mode就恢复正常，再输入指令又能激活。不需要在同一个模式里死磕。

第三，搭配 Claude Code 使用效果最好。Caveman 最初就是为 Claude Code 设计的，集成度最高。后来也支持了其他 AI 编码工具，但 Claude Code 的体验是最丝滑的。

第四，关注你的实际账单。别只看 token 节省比例，要看月底的实际费用变化。有些用户的 token 节省了，但因为用得更多了，总费用反而没降多少。

第五，试试文言文模式。如果你是中文用户，文言文模式的信息密度比英文穴居人模式还高，而且读起来有一种奇妙的穿越感。

写在最后

Caveman 解决了一个很具体但很普遍的问题：AI 太能说了，而且那些"会说"是要收费的。

它不改变 AI 的能力。它只是把 AI 输出的水分拧干了。

你说不定也有同感——每次看 AI 回答，先快速扫过前几行找关键词，跳过那些"当然了"“很高兴为你解答”“这是一个很常见的问题”。你已经在脑子里给 AI 做了"手动 Caveman"。

现在你可以把这个手动环节也自动化了。一条命令，从今以后所有 AI 自动变成极简模式。

一行命令装好，可能每个月帮你省下一顿火锅钱。

如果这篇文章对你有帮助，欢迎关注、点赞、转发。你的每一次互动，都是我继续写下去的动力。
评论区聊聊：你算过自己每个月为 AI 的废话付了多少 token 吗？

AI实战：省token妙招之【caveman】

说"废话"的AI

Caveman 是什么？

它和"让AI简洁回答"有什么区别？

怎么装？一条命令

几种压缩级别，从"简洁"到"电报"

实战场景

场景一：日常代码编写

场景二：写代码时debug

场景三：批量代码审查

场景四：记忆文件压缩

场景五：持续省钱的MCP中间件

场景六：批量任务处理

实测数据：到底能省多少？

要避开的坑

坑1：只省输出，不省思考

坑2：极少数场景反而更费 token

坑3：别在需要"氛围感"的场景用

坑4：别在探索性任务里用

坑5：注意输入 token 的消耗

坑6：新手慎用 Ultra 模式

最佳实践

写在最后

A. Nim Game Is XOR Game（Codeforces Round 1105 (Div. 1)）

如何在3分钟内免费解锁英雄联盟所有皮肤？R3nzSkin国服换肤终极指南

B. Decidophobia（Codeforces Round 1105 (Div. 1)）

AMD Ryzen处理器免费调试神器：5分钟学会SMU Debug Tool完整指南

2026 东莞阻尼转轴旋转合页厂家 TOP10 完整榜单｜细分赛道实力排名 + 选型指南

长大隧道 FM 无线应急广播全覆盖系统

说"废话"的AI

Caveman 是什么？

它和"让AI简洁回答"有什么区别？

怎么装？一条命令

几种压缩级别，从"简洁"到"电报"

实战场景

场景一：日常代码编写

场景二：写代码时debug

场景三：批量代码审查

场景四：记忆文件压缩

场景五：持续省钱的MCP中间件

场景六：批量任务处理

实测数据：到底能省多少？

要避开的坑

坑1：只省输出，不省思考

坑2：极少数场景反而更费 token

坑3：别在需要"氛围感"的场景用

坑4：别在探索性任务里用

坑5：注意输入 token 的消耗

坑6：新手慎用 Ultra 模式

最佳实践

写在最后

A. Nim Game Is XOR Game（Codeforces Round 1105 (Div. 1)）

如何在3分钟内免费解锁英雄联盟所有皮肤？R3nzSkin国服换肤终极指南

B. Decidophobia（Codeforces Round 1105 (Div. 1)）

AMD Ryzen处理器免费调试神器：5分钟学会SMU Debug Tool完整指南

2026 东莞阻尼转轴 旋转合页厂家 TOP10 完整榜单｜细分赛道实力排名 + 选型指南

长大隧道 FM 无线应急广播全覆盖系统

2026 东莞阻尼转轴旋转合页厂家 TOP10 完整榜单｜细分赛道实力排名 + 选型指南