核心结论:AI Agent 时代,真正决定产品能不能跑起来的,不只是模型能力,而是 Token 消耗、工具调用、上下文管理、缓存策略和成本护栏。
一个数字 | 一个变化 | 一个风险 |
一、这不是“聊天机器人更火了”,而是 AI 任务形态变了
过去很多人理解 AI 成本,习惯用一次问答来算:用户问一句,模型回一句,账单大概就是输入 Token 加输出 Token。到了 Agent 时代,这个算法失效了。因为 Agent 不是“回答”,而是在替你完成一串任务。
比如你让一个 Agent “帮我分析竞品并生成一份汇报”,它可能会先拆任务,再搜索资料,再读取网页,再整理证据,再生成大纲,再做校验,最后才输出结果。你看到的是一份报告,后台跑的可能是十几次模型调用。
这就是这条信息最值得关注的地方:AI 的核心消耗单位正在从“对话次数”变成“任务执行链”。
二、关键数字:24 倍、120 千万亿 Token / 月
Goldman Sachs Research 的判断很直接:随着消费者和企业采用 AI Agent,Agentic AI 的 Token 消耗量预计会在 2026 到 2030 年之间增长 24 倍,到 2030 年达到每月 120 千万亿 Token 的规模。
这个数字听起来很夸张,但它背后的逻辑并不复杂:一个普通聊天请求只需要一次或少数几次模型推理,而一个 Agent 任务会反复执行“思考、检索、调用工具、读取结果、重新规划、验证输出”。同一个用户需求,在 Agent 化之后,会天然变成多轮调用。
换句话说,未来 AI 使用量的增长,不一定来自更多人闲聊,而可能来自更多 Agent 在后台替人持续工作。
三、为什么 Agent 一上来,Token 会像开闸一样流走?
1. Agent 会拆任务
大模型直接回答一个问题,最多是“想一想再输出”。但 Agent 会把目标拆成多个子任务。每个子任务都可能触发一次新的模型调用,规划越细,Token 越多。
2. Agent 会带上下文
Agent 不可能凭空执行任务,它要读你的文件、项目代码、历史对话、工具返回、数据库结果。这些信息都要塞进上下文窗口。上下文越长,输入 Token 越高。
3. Agent 会调用工具
检索、浏览器、数据库、代码执行、Shell 命令、API 调用,本质上都会产生中间结果。中间结果如果原样回填给模型,就会继续放大 Token 消耗。
4. Agent 会校验和重试
真正能干活的 Agent 必须会自检。代码报错要修,数据不一致要查,工具失败要重试。每一次重试,都是新的 Token 成本。
四、Agent 真正的成本黑洞,不在最终答案,而在中间过程
很多人看 AI 产品费用,只看最后生成了多少文字,这是低估。真正大头通常藏在中间链路:系统提示词、项目上下文、检索结果、工具日志、错误信息、重试历史、评估指令。
尤其是 AI Coding、企业客服、数据分析、浏览器自动化这类任务,模型不是一次性“生成答案”,而是需要反复观察环境、做动作、看反馈,再决定下一步。
这也是为什么同样是一个模型,在普通聊天里很便宜,在 Agent 场景里可能很快烧掉额度。不是模型突然变贵了,而是任务链路变长了。
五、最关键的矛盾:需求上涨,成本下降,同时发生
高盛这次判断有意思的地方在于,它并不是单纯说“AI 会越来越贵”。相反,它强调另一个方向:推理的单位成本也在快速下降。根据 Goldman Sachs Research 的说法,半导体供应商正在让推理的每 Token 成本以每年 60% 到 70% 的速度下降。
这就形成了一个非常重要的产业矛盾:
•一边是 Agent 普及后 Token 需求爆炸。
•另一边是芯片效率、数据中心架构、推理优化不断降低单位成本。
•最后谁赚钱,不取决于谁“最会讲 AI 故事”,而取决于谁能把单位成本压得比需求增长更快。
所以,未来 AI 公司会出现分化:会控成本的,Token 越多越赚钱;不会控成本的,用户越多亏得越快。
六、这会重塑 AI 产业链:利润会流向瓶颈环节
如果 Token 消耗真的进入 24 倍增长通道,产业链的受益顺序会非常清晰。上游需要更多电力、冷却、数据中心、GPU、HBM、光模块和网络设备;中游需要更高效的云推理平台和模型服务;下游应用则必须学会用更少 Token 完成更多任务。
这意味着 AI 产业的竞争会从“谁有更强模型”扩展到“谁能把模型、工具、数据、权限、缓存、监控、评估串成一个低成本执行系统”。
对创业公司来说,最危险的不是没用户,而是每个用户都在帮你烧钱。对大厂来说,最关键的不是发布多少 Agent,而是能不能把 Agent 的执行成本压进可持续的毛利结构里。
七、企业 Agent 为什么不会一夜普及?
消费级 Agent 可以先做订机票、整理邮箱、查资料这类任务,错了还有人能及时纠正。但企业 Agent 不一样,它必须进入真实系统:CRM、工单、财务、代码库、数据库、权限系统。
Goldman Sachs Research 也提到,企业采用 Agentic AI 会比消费端更复杂,因为企业应用要经过测试、集成、文档、合规、预算和监管等环节。它预测到 2030 年,使用 Agentic AI 的知识工作者比例为 12%,到 2040 年上升到 37%。
这说明企业 Agent 是长期过程,不是今天买一个工具,明天全公司自动化。真正落地要先从低风险、高重复、可评估的流程切入。
八、对开发者和企业最实用的启发:先搭 Token 成本系统
很多团队现在做 Agent,容易先追求“能不能跑起来”,但真正上线后最痛的是“为什么这么贵”。所以从第一天就应该把 Token 成本当成核心指标,而不是上线后再补。
1. 每个任务都要有 Token 预算
例如一个竞品分析任务最多允许 200K Token,一个代码修复任务最多允许 500K Token。超过预算自动停止,转人工确认。
2. 检索结果不能原样塞回模型
网页、日志、数据库返回结果都要裁剪,只保留关键字段。否则一次工具调用返回几万字,模型下一轮又要全部读一遍。
3. 缓存必须前置
固定系统提示词、常见知识库片段、重复问题答案、项目结构摘要,都应该缓存。能复用的上下文,不要每次重新付费。
4. 模型要分层路由
简单分类、格式转换、摘要可以交给小模型;复杂推理、代码重构、关键决策再交给强模型。全部任务都用最强模型,成本一定失控。
九、AI Coding 场景尤其要警惕 Token 爆炸
AI Coding 是最容易让人上头的 Agent 场景。因为它能读代码、改文件、跑命令、看报错、再修复,看起来非常爽。但它背后也最容易烧 Token。
一个真实代码任务通常包括:读取目录结构、理解框架、定位文件、生成修改方案、写代码、运行测试、读取报错、二次修复、生成总结。每一步都要消耗上下文。项目越大,日志越长,越容易爆。
所以用 Claude Code、Codex、Qwen Code、OpenCode 这类工具时,不能只看模型强弱,还要看它有没有:上下文压缩、文件选择策略、命令权限控制、缓存机制、失败重试上限和成本可视化。
十、最终判断:Agent 时代,Token 就是新的“用电量”
如果说 GPU 是 AI 工厂的机器,数据中心是厂房,电力是能源,那么 Token 就是这座工厂实际生产出来的“工作量计数器”。
Chatbot 时代,大家比谁回答得更好;Agent 时代,大家比谁能用更少 Token 完成更复杂的任务。
真正成熟的 AI 团队,不会只问“这个模型榜单第几”,而会问:
•这个任务平均消耗多少 Token?
•成功率是多少?
•失败重试会不会无限循环?
•工具返回有没有被裁剪?
•强模型和小模型有没有分层路由?
•上线后能不能看到每个任务的成本 Trace?
结尾:未来的差距,不是会不会用 AI,而是会不会管理 AI
Agent 会让 AI 从“聊天工具”变成“执行系统”。这个变化很爽,也很危险。爽在于它真的能替人跑流程、写代码、查资料、做决策;危险在于它会把成本隐藏在后台步骤里,让你看着自动化很强,月底账单也很强。
高盛的 24 倍预测,本质上提醒我们:AI Agent 的下一战,不只是模型能力之战,也是 Token 经济学之战。
谁能把模型能力、工具调用、上下文压缩、缓存复用、成本监控、评估回归整合起来,谁才能真正把 Agent 用到生产里。否则,Agent 不是生产力,而是一个会自动刷额度的黑洞。