一个19岁大学生写了这个插件,三天GitHub拿了4000多颗星。它干的事只有一件——让AI说人话,别说废话。结果?token省了65%,但智商一点没降。
说"废话"的AI
我用得最多的就是 Claude Code,日常写代码、调 bug、做 code review。按理说这钱花得值——毕竟它确实帮我干了不少活。但我忍不住翻了翻对话记录,发现了一个让我心塞的事实。
每次我问它一个问题,它总是先说“当然,我很乐意帮你”。然后是一段解释背景的废话。接着才进入正题。最后再来一段总结:“希望这对你有帮助!如果还有问题随时问我。”
这些话,每一句都是 token。每一个 token,都是钱。
更离谱的是,有时候它帮我做一个简单的代码审查,回复能有 500 多 token,其中真正有用的技术建议可能就占 100 个 token,剩下 400 个全是客套话和重复解释。
我忽然意识到一件事:我不是在为"知识"付费,我是在为"废话"付费。
就在我琢磨有啥办法能让 AI 少说点废话的时候,我刷到了一个插件【Caveman】,翻译过来就是"山顶洞人"。
它干的事就一件:让AI"像山顶洞人一样说话"。
不是让AI变笨。是让AI砍掉所有客套话、冗余修饰、虚词废话,只留干货。代码照样准确,技术细节一个不少,就是把"好的呢,让我来帮您"这种话全删了。
Caveman 是什么?
一句话:Caveman 是一个插件,装完之后AI的输出自动从"话痨模式"切成"极简模式",输出token平均省65%,但技术内容一点不少。
它支持 Claude Code、Codex、Gemini、Cursor、Windsurf、Cline、Copilot 等30多种AI编程代理。不管你用哪个,基本都能装。
装完之后的效果,看个对比就懂了:
问:React组件为什么会重复渲染?
| 对比 | 回答 | Token |
|---|---|---|
| 普通AI | “这是一个非常好的问题!React中的重复渲染是很多开发者遇到的常见问题。当你的组件在不必要的情况下重新渲染时,通常是因为……(省略200字背景介绍)……我建议你使用React.memo包裹组件,并且在传递回调函数时使用useCallback。” | ~1200 |
| Caveman | “新对象引用每次渲染。内联对象prop = 新引用 = 重新渲染。用useMemo包裹。” | ~160 |
少了87%的token,说的却是同一件事。
再比如问一个安全问题:
| 普通AI | “当然!我很乐意帮你排查这个认证中间件的token过期问题。让我先看一下你的代码,然后提供一个完整的解决方案。这个问题很可能是由……” |
|---|---|
| Caveman | “认证中间件bug。Token过期检查用了<不是<=。修复:” |
同样的修复方案,少了83%的废话。
关键点:Caveman 只压缩输出,不碰思考过程。AI在脑子里还是完整推理的,只是在开口说话的时候把废话过滤掉了。
它和"让AI简洁回答"有什么区别?
你可能想:这有什么了不起?我每次让AI “简洁回答” 不就行了?
还真不一样。试过的人都知道:
- 每次都要手动打 “简洁回答”、“简短回答”、“别废话”——烦不烦?
- 聊了三轮之后,AI就忘了,又开始长篇大论
- “简洁回答” 是一种模糊指令,AI的理解程度不稳定
而 Caveman 做的是系统级的输出规则改写。它通过 Hook 机制在会话启动时就直接改写 AI 的输出风格。不需要你每次手动敲,也不会聊着聊着就"复发"。
下面这个对比更直观:
| 对比 | 每次敲"简洁回答" | Caveman |
|---|---|---|
| 需要手动操作 | 每次都要 | 一次安装,永久生效 |
| 效果持久性 | 聊3轮就忘 | 整个会话期间保持 |
| 压缩程度 | 不稳定,看AI心情 | 稳定压缩65%左右 |
| 支持代码审查 | 不支持 | 支持(/caveman-review) |
| 多语言 | 不一定 | 你用中文,它回答中文 |
| 适用代理 | 你用的那个 | 30+代理通吃 |
怎么装?一条命令
不管你是 Mac、Linux 还是 Windows,打开终端,复制粘贴一行:
Mac 或 Linux 用户,终端里跑一行:
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bashWindows 用户在 PowerShell 里跑:
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex30秒搞定。安装脚本会自动检测你装了哪些AI代理,给每个都配上。
装完之后:
- 输入
/caveman开启压缩 - 输入
/caveman lite或/caveman ultra可以切换等级 - 想关掉恢复正常模式就输入 “normal mode”
- 输入
/caveman-stats看省了多少 token
几种压缩级别,从"简洁"到"电报"
Caveman 有四档:
| 级别 | 效果 | 适用场景 |
|---|---|---|
lite | 去掉填充词和礼貌用语 | 日常对话,想省但不想太冷 |
full(默认) | 完整的原始人模式 | 编程、技术问答,性价比最高 |
ultra | 电报式,极度精简 | 你在赶时间、或者调试时不想被打扰 |
wenyan | 文言文/古汉语 | 想装逼或者追求极致压缩时用 |
切级别的方式:/caveman lite、/caveman ultra等。
实战场景
场景一:日常代码编写
这是 Caveman 的主场。你问它一个具体的编码问题,它直接给你答案,不带任何废话。对于已经知道自己要什么的老手来说,效率提升非常明显。
实测:问 Claude “如何在 React 中处理表单提交”,普通模式回复约 450 token,Caveman 模式约 80 token,信息完全一致。
场景二:写代码时debug
深夜 debug,你每问一个问题,AI 先跟你寒暄三句。敲了 Caveman 之后,回答变成:
“第42行。user可能为null。加空值检查。”
三秒钟看完,继续写代码。专注力不用被废话打断。
场景三:批量代码审查
有几十个 PR 要审?用 Caveman 的一行审查模式:
/caveman-review
输出:
L42: 🔴 bug: user null. Add guard.L78: 🟡 perf: loop inside render. Move to useMemo.
一行一个结论,精准高效。
场景四:记忆文件压缩
你的 CLAUDE.md 或项目配置文件写了几千字?用 Caveman 压缩:
/caveman-compress CLAUDE.md
700字的偏好文件能压到285字(省59%)。每个新会话都少花输入 token,积少成多。
场景五:持续省钱的MCP中间件
如果你用 MCP 工具,Caveman 还提供了一个中间件caveman-shrink,可以压缩工具描述。工具描述通常又长又啰嗦,压缩之后每次调用都省 token。
场景六:批量任务处理
如果你需要对大量文件做重复性操作(比如批量添加类型注解、统一代码风格),Caveman 模式下的 token 节省会被放大——因为每个文件省一点,几百个文件加起来就很可观了。
实测数据:到底能省多少?
GitHub 仓库里有完整的 benchmark 数据,我挑几个关键数字:
输出压缩效果(10个典型任务的平均值):
普通模式平均每次回答 1214 token;Caveman 模式平均 294 token。平均节省 65%。
最高纪录:解释 React 重渲染 bug,从 1180 token 压到 159 token,省了 87%。
记忆文件压缩效果(5个典型文件平均值):
原始平均 898 字符,压缩后 481 字符。平均节省 46%。
叠加使用的话:记忆文件省 46% 的输入 token,每个回答省 65% 的输出 token。一个月下来,总 token 消耗大概能腰斩。
要避开的坑
坑1:只省输出,不省思考
Caveman 只压缩输出 token。AI 在脑子里的推理过程一点没省。所以别指望装了它就能大幅降低推理成本——降的是输出成本。好消息是,大多数人用的 API 定价里,输出 token 比输入贵好几倍,所以输出省 65% 已经够香了。
坑2:极少数场景反而更费 token
官方宣称的"省 65%“是一个平均值,实际效果因任务而异。对于本身就很简单的任务(比如"帮我写一个 hello world”),节省空间有限。对于需要大量解释的复杂任务,节省比例会更高。别期望每个场景都能省 75%。
benchmark 里有个例外——实现 React Error Boundary 那个任务,Caveman 模式反而多用了 68% 的 token。
什么原因?因为 Error Boundary 的实现细节比较多,精简表达之后 AI 不得不多解释几轮才说清楚。遇到这种情况,关掉 Caveman 用正常模式就行。
坑3:别在需要"氛围感"的场景用
写小说、写营销文案、写情感充沛的内容——Caveman 会把这些全毁了。它追求的是信息密度,不是情绪表达。该啰嗦的地方就让它啰嗦。
坑4:别在探索性任务里用
Caveman 最适合"你已经知道要什么"的场景。如果你在做技术调研、探索新方案、或者让 AI 帮你头脑风暴,关掉它。让 AI 多说点"废话",那些推理过程可能是有价值的。
坑5:注意输入 token 的消耗
Caveman 主要压缩输出 token。如果你的输入本身就很大(比如贴了一大段代码让它分析),输出再省也省不了多少。这时候可以配合它的记忆压缩功能,或者自己先精简输入。
坑6:新手慎用 Ultra 模式
Ultra 模式的压缩力度极大,回复几乎只有关键词。老手看着高效,但如果你对一个技术不太熟,这种回复可能让你一头雾水。建议新手从 Lite 模式开始,觉得太啰嗦再切 Full。
最佳实践
第一,日常编码用 Full 模式,需要深度思考时切回普通模式。这是最实用的组合。
第二,善用模式切换。Caveman 支持随时开关,输入normal mode就恢复正常,再输入指令又能激活。不需要在同一个模式里死磕。
第三,搭配 Claude Code 使用效果最好。Caveman 最初就是为 Claude Code 设计的,集成度最高。后来也支持了其他 AI 编码工具,但 Claude Code 的体验是最丝滑的。
第四,关注你的实际账单。别只看 token 节省比例,要看月底的实际费用变化。有些用户的 token 节省了,但因为用得更多了,总费用反而没降多少。
第五,试试文言文模式。如果你是中文用户,文言文模式的信息密度比英文穴居人模式还高,而且读起来有一种奇妙的穿越感。
写在最后
Caveman 解决了一个很具体但很普遍的问题:AI 太能说了,而且那些"会说"是要收费的。
它不改变 AI 的能力。它只是把 AI 输出的水分拧干了。
你说不定也有同感——每次看 AI 回答,先快速扫过前几行找关键词,跳过那些"当然了"“很高兴为你解答”“这是一个很常见的问题”。你已经在脑子里给 AI 做了"手动 Caveman"。
现在你可以把这个手动环节也自动化了。一条命令,从今以后所有 AI 自动变成极简模式。
一行命令装好,可能每个月帮你省下一顿火锅钱。
如果这篇文章对你有帮助,欢迎关注、点赞、转发。你的每一次互动,都是我继续写下去的动力。
评论区聊聊:你算过自己每个月为 AI 的废话付了多少 token 吗?