news 2026/5/30 23:30:19

AI Agent 正在吞掉 Token:高盛 24 倍预测背后的产业真相

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI Agent 正在吞掉 Token:高盛 24 倍预测背后的产业真相

核心结论:AI Agent 时代,真正决定产品能不能跑起来的,不只是模型能力,而是 Token 消耗、工具调用、上下文管理、缓存策略和成本护栏。

一个数字
2030 年 Agentic AI 月度 Token 处理量或达120 千万亿

一个变化
Chatbot 是一次问答,Agent 是多轮规划、执行、校验

一个风险
没有预算、缓存和路由,Token 会变成成本黑洞

一、这不是“聊天机器人更火了”,而是 AI 任务形态变了

过去很多人理解 AI 成本,习惯用一次问答来算:用户问一句,模型回一句,账单大概就是输入 Token 加输出 Token。到了 Agent 时代,这个算法失效了。因为 Agent 不是“回答”,而是在替你完成一串任务。

比如你让一个 Agent “帮我分析竞品并生成一份汇报”,它可能会先拆任务,再搜索资料,再读取网页,再整理证据,再生成大纲,再做校验,最后才输出结果。你看到的是一份报告,后台跑的可能是十几次模型调用。

这就是这条信息最值得关注的地方:AI 的核心消耗单位正在从“对话次数”变成“任务执行链”。

二、关键数字:24 倍、120 千万亿 Token / 月

Goldman Sachs Research 的判断很直接:随着消费者和企业采用 AI Agent,Agentic AI 的 Token 消耗量预计会在 2026 到 2030 年之间增长 24 倍,到 2030 年达到每月 120 千万亿 Token 的规模。

这个数字听起来很夸张,但它背后的逻辑并不复杂:一个普通聊天请求只需要一次或少数几次模型推理,而一个 Agent 任务会反复执行“思考、检索、调用工具、读取结果、重新规划、验证输出”。同一个用户需求,在 Agent 化之后,会天然变成多轮调用。

换句话说,未来 AI 使用量的增长,不一定来自更多人闲聊,而可能来自更多 Agent 在后台替人持续工作。

三、为什么 Agent 一上来,Token 会像开闸一样流走?

1. Agent 会拆任务

大模型直接回答一个问题,最多是“想一想再输出”。但 Agent 会把目标拆成多个子任务。每个子任务都可能触发一次新的模型调用,规划越细,Token 越多。

2. Agent 会带上下文

Agent 不可能凭空执行任务,它要读你的文件、项目代码、历史对话、工具返回、数据库结果。这些信息都要塞进上下文窗口。上下文越长,输入 Token 越高。

3. Agent 会调用工具

检索、浏览器、数据库、代码执行、Shell 命令、API 调用,本质上都会产生中间结果。中间结果如果原样回填给模型,就会继续放大 Token 消耗。

4. Agent 会校验和重试

真正能干活的 Agent 必须会自检。代码报错要修,数据不一致要查,工具失败要重试。每一次重试,都是新的 Token 成本。

四、Agent 真正的成本黑洞,不在最终答案,而在中间过程

很多人看 AI 产品费用,只看最后生成了多少文字,这是低估。真正大头通常藏在中间链路:系统提示词、项目上下文、检索结果、工具日志、错误信息、重试历史、评估指令。

尤其是 AI Coding、企业客服、数据分析、浏览器自动化这类任务,模型不是一次性“生成答案”,而是需要反复观察环境、做动作、看反馈,再决定下一步。

这也是为什么同样是一个模型,在普通聊天里很便宜,在 Agent 场景里可能很快烧掉额度。不是模型突然变贵了,而是任务链路变长了。

五、最关键的矛盾:需求上涨,成本下降,同时发生

高盛这次判断有意思的地方在于,它并不是单纯说“AI 会越来越贵”。相反,它强调另一个方向:推理的单位成本也在快速下降。根据 Goldman Sachs Research 的说法,半导体供应商正在让推理的每 Token 成本以每年 60% 到 70% 的速度下降。

这就形成了一个非常重要的产业矛盾:

一边是 Agent 普及后 Token 需求爆炸。

另一边是芯片效率、数据中心架构、推理优化不断降低单位成本。

最后谁赚钱,不取决于谁“最会讲 AI 故事”,而取决于谁能把单位成本压得比需求增长更快。

所以,未来 AI 公司会出现分化:会控成本的,Token 越多越赚钱;不会控成本的,用户越多亏得越快。

六、这会重塑 AI 产业链:利润会流向瓶颈环节

如果 Token 消耗真的进入 24 倍增长通道,产业链的受益顺序会非常清晰。上游需要更多电力、冷却、数据中心、GPU、HBM、光模块和网络设备;中游需要更高效的云推理平台和模型服务;下游应用则必须学会用更少 Token 完成更多任务。

这意味着 AI 产业的竞争会从“谁有更强模型”扩展到“谁能把模型、工具、数据、权限、缓存、监控、评估串成一个低成本执行系统”。

对创业公司来说,最危险的不是没用户,而是每个用户都在帮你烧钱。对大厂来说,最关键的不是发布多少 Agent,而是能不能把 Agent 的执行成本压进可持续的毛利结构里。

七、企业 Agent 为什么不会一夜普及?

消费级 Agent 可以先做订机票、整理邮箱、查资料这类任务,错了还有人能及时纠正。但企业 Agent 不一样,它必须进入真实系统:CRM、工单、财务、代码库、数据库、权限系统。

Goldman Sachs Research 也提到,企业采用 Agentic AI 会比消费端更复杂,因为企业应用要经过测试、集成、文档、合规、预算和监管等环节。它预测到 2030 年,使用 Agentic AI 的知识工作者比例为 12%,到 2040 年上升到 37%。

这说明企业 Agent 是长期过程,不是今天买一个工具,明天全公司自动化。真正落地要先从低风险、高重复、可评估的流程切入。

八、对开发者和企业最实用的启发:先搭 Token 成本系统

很多团队现在做 Agent,容易先追求“能不能跑起来”,但真正上线后最痛的是“为什么这么贵”。所以从第一天就应该把 Token 成本当成核心指标,而不是上线后再补。

1. 每个任务都要有 Token 预算

例如一个竞品分析任务最多允许 200K Token,一个代码修复任务最多允许 500K Token。超过预算自动停止,转人工确认。

2. 检索结果不能原样塞回模型

网页、日志、数据库返回结果都要裁剪,只保留关键字段。否则一次工具调用返回几万字,模型下一轮又要全部读一遍。

3. 缓存必须前置

固定系统提示词、常见知识库片段、重复问题答案、项目结构摘要,都应该缓存。能复用的上下文,不要每次重新付费。

4. 模型要分层路由

简单分类、格式转换、摘要可以交给小模型;复杂推理、代码重构、关键决策再交给强模型。全部任务都用最强模型,成本一定失控。

九、AI Coding 场景尤其要警惕 Token 爆炸

AI Coding 是最容易让人上头的 Agent 场景。因为它能读代码、改文件、跑命令、看报错、再修复,看起来非常爽。但它背后也最容易烧 Token。

一个真实代码任务通常包括:读取目录结构、理解框架、定位文件、生成修改方案、写代码、运行测试、读取报错、二次修复、生成总结。每一步都要消耗上下文。项目越大,日志越长,越容易爆。

所以用 Claude Code、Codex、Qwen Code、OpenCode 这类工具时,不能只看模型强弱,还要看它有没有:上下文压缩、文件选择策略、命令权限控制、缓存机制、失败重试上限和成本可视化。

十、最终判断:Agent 时代,Token 就是新的“用电量”

如果说 GPU 是 AI 工厂的机器,数据中心是厂房,电力是能源,那么 Token 就是这座工厂实际生产出来的“工作量计数器”。

Chatbot 时代,大家比谁回答得更好;Agent 时代,大家比谁能用更少 Token 完成更复杂的任务。

真正成熟的 AI 团队,不会只问“这个模型榜单第几”,而会问:

这个任务平均消耗多少 Token?

成功率是多少?

失败重试会不会无限循环?

工具返回有没有被裁剪?

强模型和小模型有没有分层路由?

上线后能不能看到每个任务的成本 Trace?

结尾:未来的差距,不是会不会用 AI,而是会不会管理 AI

Agent 会让 AI 从“聊天工具”变成“执行系统”。这个变化很爽,也很危险。爽在于它真的能替人跑流程、写代码、查资料、做决策;危险在于它会把成本隐藏在后台步骤里,让你看着自动化很强,月底账单也很强。

高盛的 24 倍预测,本质上提醒我们:AI Agent 的下一战,不只是模型能力之战,也是 Token 经济学之战。

谁能把模型能力、工具调用、上下文压缩、缓存复用、成本监控、评估回归整合起来,谁才能真正把 Agent 用到生产里。否则,Agent 不是生产力,而是一个会自动刷额度的黑洞。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 23:28:17

华为OD机试真题 新系统 C语言实现【寻找孤立水站】

寻找孤立水站 更多语言题解可查看:华为OD机试新系统真题 - 寻找孤立水站(C/C/Py/Java/Js/Go)题解 题目描述 城市供水管道由若干个连接外部的源头水站,以及内部水站、水管组成。 全市共有 nnn 个水站,编号为 000 至 n−1n-1n−1。 供水网络…

作者头像 李华
网站建设 2026/5/30 23:27:00

Arm GICv3中断控制器在低功耗状态下的上下文管理

1. GICv3寄存器上下文管理概述在现代Arm SoC系统中,电源管理是一个关键设计考量。系统支持多种低功耗状态,其中Suspend-to-RAM(挂起到内存)是移动和嵌入式系统中常见的深度睡眠状态。在这种状态下,包括GIC(…

作者头像 李华
网站建设 2026/5/30 23:24:07

基于树莓派3B+与RetroPie打造专属复古游戏机:从PCB设计到系统集成

1. 项目概述:打造你的专属复古游戏站 作为一个折腾过好几台复古游戏机的老玩家,我始终觉得,从零开始组装一台能玩遍童年经典游戏的设备,其乐趣远超直接购买成品。市面上虽然有各种迷你复刻主机,但它们要么游戏库固定&a…

作者头像 李华
网站建设 2026/5/30 23:23:00

OpenCore Legacy Patcher完整教程:3步让旧Mac重获新生的终极指南

OpenCore Legacy Patcher完整教程:3步让旧Mac重获新生的终极指南 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher是一款功…

作者头像 李华