AI Agent 正在吞掉 Token：高盛 24 倍预测背后的产业真相-平芜编程栈

核心结论：AI Agent 时代，真正决定产品能不能跑起来的，不只是模型能力，而是 Token 消耗、工具调用、上下文管理、缓存策略和成本护栏。

一个数字
2030 年 Agentic AI 月度 Token 处理量或达120 千万亿

一个变化
Chatbot 是一次问答，Agent 是多轮规划、执行、校验

一个风险
没有预算、缓存和路由，Token 会变成成本黑洞

一、这不是“聊天机器人更火了”，而是 AI 任务形态变了

过去很多人理解 AI 成本，习惯用一次问答来算：用户问一句，模型回一句，账单大概就是输入 Token 加输出 Token。到了 Agent 时代，这个算法失效了。因为 Agent 不是“回答”，而是在替你完成一串任务。

比如你让一个 Agent “帮我分析竞品并生成一份汇报”，它可能会先拆任务，再搜索资料，再读取网页，再整理证据，再生成大纲，再做校验，最后才输出结果。你看到的是一份报告，后台跑的可能是十几次模型调用。

这就是这条信息最值得关注的地方：AI 的核心消耗单位正在从“对话次数”变成“任务执行链”。

二、关键数字：24 倍、120 千万亿 Token / 月

Goldman Sachs Research 的判断很直接：随着消费者和企业采用 AI Agent，Agentic AI 的 Token 消耗量预计会在 2026 到 2030 年之间增长 24 倍，到 2030 年达到每月 120 千万亿 Token 的规模。

这个数字听起来很夸张，但它背后的逻辑并不复杂：一个普通聊天请求只需要一次或少数几次模型推理，而一个 Agent 任务会反复执行“思考、检索、调用工具、读取结果、重新规划、验证输出”。同一个用户需求，在 Agent 化之后，会天然变成多轮调用。

换句话说，未来 AI 使用量的增长，不一定来自更多人闲聊，而可能来自更多 Agent 在后台替人持续工作。

三、为什么 Agent 一上来，Token 会像开闸一样流走？

1. Agent 会拆任务

大模型直接回答一个问题，最多是“想一想再输出”。但 Agent 会把目标拆成多个子任务。每个子任务都可能触发一次新的模型调用，规划越细，Token 越多。

2. Agent 会带上下文

Agent 不可能凭空执行任务，它要读你的文件、项目代码、历史对话、工具返回、数据库结果。这些信息都要塞进上下文窗口。上下文越长，输入 Token 越高。

3. Agent 会调用工具

检索、浏览器、数据库、代码执行、Shell 命令、API 调用，本质上都会产生中间结果。中间结果如果原样回填给模型，就会继续放大 Token 消耗。

4. Agent 会校验和重试

真正能干活的 Agent 必须会自检。代码报错要修，数据不一致要查，工具失败要重试。每一次重试，都是新的 Token 成本。

四、Agent 真正的成本黑洞，不在最终答案，而在中间过程

很多人看 AI 产品费用，只看最后生成了多少文字，这是低估。真正大头通常藏在中间链路：系统提示词、项目上下文、检索结果、工具日志、错误信息、重试历史、评估指令。

尤其是 AI Coding、企业客服、数据分析、浏览器自动化这类任务，模型不是一次性“生成答案”，而是需要反复观察环境、做动作、看反馈，再决定下一步。

这也是为什么同样是一个模型，在普通聊天里很便宜，在 Agent 场景里可能很快烧掉额度。不是模型突然变贵了，而是任务链路变长了。

五、最关键的矛盾：需求上涨，成本下降，同时发生

高盛这次判断有意思的地方在于，它并不是单纯说“AI 会越来越贵”。相反，它强调另一个方向：推理的单位成本也在快速下降。根据 Goldman Sachs Research 的说法，半导体供应商正在让推理的每 Token 成本以每年 60% 到 70% 的速度下降。

这就形成了一个非常重要的产业矛盾：

•一边是 Agent 普及后 Token 需求爆炸。

•另一边是芯片效率、数据中心架构、推理优化不断降低单位成本。

•最后谁赚钱，不取决于谁“最会讲 AI 故事”，而取决于谁能把单位成本压得比需求增长更快。

所以，未来 AI 公司会出现分化：会控成本的，Token 越多越赚钱；不会控成本的，用户越多亏得越快。

六、这会重塑 AI 产业链：利润会流向瓶颈环节

如果 Token 消耗真的进入 24 倍增长通道，产业链的受益顺序会非常清晰。上游需要更多电力、冷却、数据中心、GPU、HBM、光模块和网络设备；中游需要更高效的云推理平台和模型服务；下游应用则必须学会用更少 Token 完成更多任务。

这意味着 AI 产业的竞争会从“谁有更强模型”扩展到“谁能把模型、工具、数据、权限、缓存、监控、评估串成一个低成本执行系统”。

对创业公司来说，最危险的不是没用户，而是每个用户都在帮你烧钱。对大厂来说，最关键的不是发布多少 Agent，而是能不能把 Agent 的执行成本压进可持续的毛利结构里。

七、企业 Agent 为什么不会一夜普及？

消费级 Agent 可以先做订机票、整理邮箱、查资料这类任务，错了还有人能及时纠正。但企业 Agent 不一样，它必须进入真实系统：CRM、工单、财务、代码库、数据库、权限系统。

Goldman Sachs Research 也提到，企业采用 Agentic AI 会比消费端更复杂，因为企业应用要经过测试、集成、文档、合规、预算和监管等环节。它预测到 2030 年，使用 Agentic AI 的知识工作者比例为 12%，到 2040 年上升到 37%。

这说明企业 Agent 是长期过程，不是今天买一个工具，明天全公司自动化。真正落地要先从低风险、高重复、可评估的流程切入。

八、对开发者和企业最实用的启发：先搭 Token 成本系统

很多团队现在做 Agent，容易先追求“能不能跑起来”，但真正上线后最痛的是“为什么这么贵”。所以从第一天就应该把 Token 成本当成核心指标，而不是上线后再补。

1. 每个任务都要有 Token 预算

例如一个竞品分析任务最多允许 200K Token，一个代码修复任务最多允许 500K Token。超过预算自动停止，转人工确认。

2. 检索结果不能原样塞回模型

网页、日志、数据库返回结果都要裁剪，只保留关键字段。否则一次工具调用返回几万字，模型下一轮又要全部读一遍。

3. 缓存必须前置

固定系统提示词、常见知识库片段、重复问题答案、项目结构摘要，都应该缓存。能复用的上下文，不要每次重新付费。

4. 模型要分层路由

简单分类、格式转换、摘要可以交给小模型；复杂推理、代码重构、关键决策再交给强模型。全部任务都用最强模型，成本一定失控。

九、AI Coding 场景尤其要警惕 Token 爆炸

AI Coding 是最容易让人上头的 Agent 场景。因为它能读代码、改文件、跑命令、看报错、再修复，看起来非常爽。但它背后也最容易烧 Token。

一个真实代码任务通常包括：读取目录结构、理解框架、定位文件、生成修改方案、写代码、运行测试、读取报错、二次修复、生成总结。每一步都要消耗上下文。项目越大，日志越长，越容易爆。

所以用 Claude Code、Codex、Qwen Code、OpenCode 这类工具时，不能只看模型强弱，还要看它有没有：上下文压缩、文件选择策略、命令权限控制、缓存机制、失败重试上限和成本可视化。

十、最终判断：Agent 时代，Token 就是新的“用电量”

如果说 GPU 是 AI 工厂的机器，数据中心是厂房，电力是能源，那么 Token 就是这座工厂实际生产出来的“工作量计数器”。

Chatbot 时代，大家比谁回答得更好；Agent 时代，大家比谁能用更少 Token 完成更复杂的任务。

真正成熟的 AI 团队，不会只问“这个模型榜单第几”，而会问：

•这个任务平均消耗多少 Token？

•成功率是多少？

•失败重试会不会无限循环？

•工具返回有没有被裁剪？

•强模型和小模型有没有分层路由？

•上线后能不能看到每个任务的成本 Trace？

结尾：未来的差距，不是会不会用 AI，而是会不会管理 AI

Agent 会让 AI 从“聊天工具”变成“执行系统”。这个变化很爽，也很危险。爽在于它真的能替人跑流程、写代码、查资料、做决策；危险在于它会把成本隐藏在后台步骤里，让你看着自动化很强，月底账单也很强。

高盛的 24 倍预测，本质上提醒我们：AI Agent 的下一战，不只是模型能力之战，也是 Token 经济学之战。

谁能把模型能力、工具调用、上下文压缩、缓存复用、成本监控、评估回归整合起来，谁才能真正把 Agent 用到生产里。否则，Agent 不是生产力，而是一个会自动刷额度的黑洞。

AI Agent 正在吞掉 Token：高盛 24 倍预测背后的产业真相

一、这不是“聊天机器人更火了”，而是 AI 任务形态变了

二、关键数字：24 倍、120 千万亿 Token / 月

三、为什么 Agent 一上来，Token 会像开闸一样流走？

1. Agent 会拆任务

2. Agent 会带上下文

3. Agent 会调用工具

4. Agent 会校验和重试

四、Agent 真正的成本黑洞，不在最终答案，而在中间过程

五、最关键的矛盾：需求上涨，成本下降，同时发生

六、这会重塑 AI 产业链：利润会流向瓶颈环节

七、企业 Agent 为什么不会一夜普及？

八、对开发者和企业最实用的启发：先搭 Token 成本系统

1. 每个任务都要有 Token 预算

2. 检索结果不能原样塞回模型

3. 缓存必须前置

4. 模型要分层路由

九、AI Coding 场景尤其要警惕 Token 爆炸

十、最终判断：Agent 时代，Token 就是新的“用电量”

结尾：未来的差距，不是会不会用 AI，而是会不会管理 AI

华为OD机试真题新系统 C语言实现【寻找孤立水站】

PHP反序列化漏洞实战：从0CTF 2016 Unserialize题看SQL注入与文件读取的链式利用

【Gemini生产环境运维铁律】：基于127家客户落地数据验证的8条不可妥协的SLA守护准则

Arm GICv3中断控制器在低功耗状态下的上下文管理

基于树莓派3B+与RetroPie打造专属复古游戏机：从PCB设计到系统集成

OpenCore Legacy Patcher完整教程：3步让旧Mac重获新生的终极指南

一、这不是“聊天机器人更火了”，而是 AI 任务形态变了

二、关键数字：24 倍、120 千万亿 Token / 月

三、为什么 Agent 一上来，Token 会像开闸一样流走？

1. Agent 会拆任务

2. Agent 会带上下文

3. Agent 会调用工具

4. Agent 会校验和重试

四、Agent 真正的成本黑洞，不在最终答案，而在中间过程

五、最关键的矛盾：需求上涨，成本下降，同时发生

六、这会重塑 AI 产业链：利润会流向瓶颈环节

七、企业 Agent 为什么不会一夜普及？

八、对开发者和企业最实用的启发：先搭 Token 成本系统

1. 每个任务都要有 Token 预算

2. 检索结果不能原样塞回模型

3. 缓存必须前置

4. 模型要分层路由

九、AI Coding 场景尤其要警惕 Token 爆炸

十、最终判断：Agent 时代，Token 就是新的“用电量”

结尾：未来的差距，不是会不会用 AI，而是会不会管理 AI

华为OD机试真题 新系统 C语言实现【寻找孤立水站】

PHP反序列化漏洞实战：从0CTF 2016 Unserialize题看SQL注入与文件读取的链式利用

【Gemini生产环境运维铁律】：基于127家客户落地数据验证的8条不可妥协的SLA守护准则

Arm GICv3中断控制器在低功耗状态下的上下文管理

基于树莓派3B+与RetroPie打造专属复古游戏机：从PCB设计到系统集成

OpenCore Legacy Patcher完整教程：3步让旧Mac重获新生的终极指南

华为OD机试真题新系统 C语言实现【寻找孤立水站】