news 2026/5/15 2:43:11

Token成AI新“货币”:中美模型价差大,中国Token出海或成新产业机会

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Token成AI新“货币”:中美模型价差大,中国Token出海或成新产业机会

Token - maxxing之辩:用得越多就越好吗?

4月初,Meta被爆内部有“Claudeonomics”排行榜,汇集超85000名Meta员工的AI使用数据,列出token消耗量最高的前250名“超级用户”。最近一个月,排行榜总使用量突破60万亿token,按Anthropic Opus 4.6的定价,这些token价值约9亿美元,排名第一的员工烧掉的token价值达数百万美元。此消息曝光后,在硅谷引发大辩论。AI创业公司Writer的CEO May Habib称这是“生死存亡级别的问题”,她公司内部也有token消耗排行榜,她明确表示自己在关注该数据,认为不全力拥抱AI就会被淘汰。Uber也很激进,目前其后端系统中11%的新代码更新已由agent完成,而三个月前这一比例还不到1%,Uber CTO表示要把软件工程转型为agent软件工程。但反对Token - maxxing的声音同样尖锐。HubSpot的CEO Yamini Rangan在LinkedIn上发文“Outcome maxxing>>token maxxing”,认为比起疯狂消耗token,更应关注产出结果,纯粹的token使用量是错误指标。AI软件工程公司Jellyfish的CEO Andrew Lau直言,刷token可能得不到想要的结果。两派争论激烈,但更多中间派形成共识:不充分利用AI的公司会被竞争对手超越并变得过时。即便排行榜和激励制度不完美,即便一些AI使用最终被证明是浪费,大厂创始人和高层们仍认为必须这么做才能让公司转型为更AI - native的公司。自OpenClaw爆火以来,agent任务烧掉的token量直线上升。科技巨头可不顾成本烧token,但创业公司和个人开发者却因token成本而焦虑。资深AI Agent开发者Nathan Wang表示,跑OpenClaw任务,稍微复杂点就可能消耗几千万token;GMICloud工程主管钱宇靖称,跑最贵的Claude模型,做小事也要花十几二十美元。Uber的CTO透露,公司2026年的AI预算在开年几个月内就已用完,主要是工程师对Claude Code的使用量暴增。硅谷知名投资人Chamath Palihapitiya也抱怨,他投资的软件公司自团队使用AI编程工具后,运营成本几个月内翻了三倍多,年化AI支出将达千万美元级别。对于企业,特别是软件SaaS行业,AI时代的成本结构与过去截然不同。以前做SaaS产品,研发投入是一次性的,用户越多边际成本越低;现在,每个用户的每次操作都有token账单,用量越多,产品方付给模型厂商的钱越多,成本不会像传统软件那样摊薄到接近零,而是随用量线性增长。正因如此,token成为AI创业公司最核心的“弹药”,风投基金开始尝试直接给被投企业提供token额度作为投资的一部分,逻辑很简单:很多AI创业项目拿到钱后第一件事就是买token,直接给token更方便。那么,token是否会成为一种新的货币?它又是如何定价的呢?

拆解Token账单:大模型公司到底怎么算钱?

Token的定价并非“一个单价乘以数量”那么简单。以一次简单的对话交互为例,账单上至少有三种不同价格的token:Input token(输入token),即发给模型的内容;Cached input token(被缓存的输入token),若某些prompt、上下文或文件内容之前已被模型系统缓存,再次调用时价格更便宜;Output token(输出token),即模型生成回答时产生的token。研究芯片与token efficiency方向的肖志斌表示,在对话任务上,三者价格大概是1:0.1:6的水平。对于对话类应用,喂给模型的input context等作为input,若prompt已被缓存,成本是input token成本的1/10,输出成本是input token成本的6倍,这是OpenAI目前的情况。不同公司根据模型能力定价不同。例如,GPT - 5的API价格,Input是每百万token 1.25美元,Cached input是每百万token 0.125美元,Output token是每百万token 10美元。OpenAI的最新模型GPT - 5.5分长短上下文两档,长上下文价格是短上下文的2倍,短上下文Input是每百万token 5美元,Cached input是每百万token 0.5美元,Output token是每百万token 30美元。虽然价格看似上涨,但实际上越贵的模型可能总成本更低。因为强模型一次就能做对,弱模型可能需反复重试,出错还需人工介入,综合成本更高。所以,最贵的GPT - 5.5 - pro和GPT - 5.4 - pro,短上下文Input是每百万token 30美元,Output token是每百万token 180美元,长上下文更贵,但在复杂任务和场景上,若能力足够强,能降低开发者成本。在agent场景,情况更复杂。agent会来回调用模型,每步可能调用不同工具,工具产生新日志和上下文,返回给agent继续循环调用。最终完成任务用的token数取决于任务调用agent loop的次数。高质量模型可能一次生成想要的答案,调用工具合适,返回output也符合需求;便宜模型可能需多次迭代,来回调用,甚至出错。因此,存在越贵的模型完成任务成本反而越低的悖论。不同模型公司定价,一方面由模型推理成本和大模型研发费用决定,更关键的是按模型质量和任务完成度。肖志斌认为,推理成本是基本成本,还需摊平大模型研发费用,但最重要的是按模型质量定价,不同模型的推理能力、上下文窗口大小、完成任务次数等都影响定价,很多公司按推理成本定价不可取,应按模型质量或任务完成度定价。还有云厂商,如微软Azure、亚马逊AWS、国内的阿里和火山引擎等。企业通过云厂商调用模型,收到的token账单是从云厂商处给出的。云厂商对token的收费与大模型公司的API官方收费相差不大,但有时因提供更多服务和能力,如区域部署、特定数据驻留、企业合规、优先推理、托管能力、私有化或专用吞吐等服务,价格会更贵,此时token账单为:模型token费 + 云服务封装 + 企业级基础设施溢价。钱宇靖表示,大部分云服务商根据模型在机器上的token每秒产出量,反向推算GPU成本,再加溢价得出最终价格,但有时云厂商会因企业折扣或抢占市场而降低价格。在后OpenClaw时期,硅谷掀起Token - maxxing热潮,人们发现token账单惊人。此时,中国的开源模型因性价比高,在国际开发者社区大受欢迎。Nathan Wang称Kimi的input不到55美分,output约2.6美元;知县提到MiniMax受OpenClaw官方推荐,试用后发现虽顶级能力稍差,但很多工作不需要太高推理能力,重要的是便宜,中美模型在一些任务上的价差可达50 - 70倍,这解释了全球开发者转向中国便宜模型的原因。

登顶token调用排行榜:中国模型如何做到超高性价比

OpenClaw爆火后,开源模型调用需求飙升,已上市的中国模型厂商,如Zhipu AI和MiniMax股价疯涨。2026年3月,阿里云、百度智能云、智谱、腾讯云混元系列模型等主要厂商集体涨价,涨幅从5%到400%不等。钱宇靖认为,开源模型token消耗量上升是因为其能力越过门槛,如智谱和Kimi在编程上有较大提升,而编程是大模型token消耗最大的赛道之一,程序员发现开源模型与几个月前的Anthropic模型一样好用且价格便宜,自然会转向开源模型,这导致开源模型价格上升。对于个人开发者和创业公司,处理不复杂任务时转向开源模型是合理的。以MiniMax M2.5和Claude Opus 4.6对比,在SWE - Bench Verified软件工程基准测试中,两者得分分别为80.2%和80.8%,实际使用中差距不大,但价格差异明显,MiniMax M2.5输入价格是每百万token 0.3美元,Claude Opus 4.6是5美元,对于每天跑几千万token的OpenClaw用户,成本从几百美元降到几十美元。中国模型能做到便宜,肖志斌认为,一是技术层面采用MoE(混合专家模型),深度使用MoE,专家size变小,每次运行的专家数目不大,可节省成本;二是生态问题,通过补贴抢占生态;三是像阿里这样的云厂商,自身成本定价可低于外部,有更高利润率来降低模型价格。不同模型为开发者提供了不同选择,复杂任务交给高性能模型,简单或重复性高的任务交给便宜模型,这种混合使用成为agent时代的新token模式。黄仁勋在GTC 2026上给出token定价框架,将token分为免费层(高吞吐、低交互速度,靠广告变现)、中级层(每百万token 3美元)、高级层(每百万token 6美元)、高速层(每百万token 45美元)和超高速层(每百万token 150美元),他认为token价格应由交互速度和使用场景决定。然而,暴增的需求背后,存在一个问题:是否真的需要消耗这么多token?一些业内人士批评,全球企业级AI应用中,近一半的token可能未产生实际价值。因为agent不像人类能“够了就停”,执行任务时会反复读取对话历史、扫描已处理文件、重复喂入过期上下文,冗余信息不断增加,真正与任务相关的只占一小部分。如何让Agent少烧冤枉钱,成为新的技术和商业赛道,Token Efficiency成为下个阶段的关键词,OpenRouter就是一个例子。

OpenRouter:从NFT到AI的“货架之王”

OpenRouter平台成为观察全球模型使用趋势的镜子,很多关于中国模型调用和排名的数据图都出自该平台。其创始人Alex Atallah曾是全球最大NFT交易所OpenSea的联合创始人兼CTO。2023年,他开始做OpenRouter,其生意逻辑简单:市面上模型增多,开发者不想每家单独注册、充值、对接API格式,OpenRouter提供统一入口,所有模型一个接口搞定,平台抽取约5%的费用。据报道,a16z在2025年对OpenRouter领投4000万美元,当时估值约5亿美元,最新一轮融资将估值推至接近13亿美元。OpenClaw的爆发让OpenRouter生意起飞,全球开发者调用模型驱动Agent工作流时,需要一个能快速切换模型的中间层,OpenRouter正好满足需求。Atallah将OpenRouter与上次创业类比,认为供给越分散,中间商越值钱。肖志斌表示,OpenRouter加了一层API调用层,与OpenAI的API调用兼容,能自动切换不同模型,统一API和定价,对AI初创公司来说,可快速上线、试错、找到匹配模型,还有fallback机制,一个模型出问题可快速切换到另一个模型。但OpenRouter也有数据局限性。肖志斌指出,很多token使用量统计不到,初创公司可能用OpenRouter,发展到一定阶段会混用OpenRouter和直接API调用,大厂或业务明确的公司会直接调用Anthropic、OpenAI或Google的API,所以OpenRouter的数据更像创业公司和独立开发者群体的风向标,而非整个AI行业的全景图,但这个群体对价格敏感、愿意尝鲜、迁移成本低,构成中国模型出海的第一波“自来水”用户。

Metronome:谁在给Token“装电表”?

如果token是AI时代的“电”,那么Metronome就是给这些“电”装电表的公司。OpenAI、NVIDIA、Anthropic、Databricks等都使用该公司的计费系统。Metronome创始团队背景特殊,两位创始人出自Dropbox,经历过SaaS工程师头疼的改定价问题,到AI时代,收费单位变为token数、API调用次数、GPU时长等细粒度指标,每个客户的合同条款、折扣结构、用量阶梯都可能不同。知县认为,SaaS成本相对稳定,而token公司情况复杂,与卡、电、请求量有关,即使买顶级套餐有时也需排队,不同任务对token消耗成本不同。Metronome的核心是清晰记录谁在何时调用了什么、花了多少token,但大部分公司自己做不好,因为“发生了什么”和“该怎么收费”是两套不同逻辑,耦合在一起会使系统脆弱。Metronome将这两件事拆开,工程团队上报用量数据,产品和销售团队配置价格和合同条款,中间的换算、出账、对账全部自动化。知县认为Metronome的做法合理,先不考虑计费,记录用户与API交互事件,再对事件流定价,然后有不同计费方式,最后可能为销售打折。该公司发展迅速,累计融资约1.28亿美元,今年1月被Stripe收购,一个100人的计费基础设施团队,估值追上很多做模型的公司,说明在token经济里,“怎么算钱”越来越重要。

Token套利:当“中间商”开始赚差价

开发者会混合使用不同模型,复杂任务用Claude、GPT等昂贵模型,简单任务用MiniMax、kimi等中国性价比模型,由此出现Token Arbitrage(Token套利)的商业模式。知县认为,这类似国内买运营商套餐,全用便宜模型和全用贵模型,用户感受可能差异不大,存在套利空间,本质上用户买单,只要用户觉得没问题就行,就像税务审计师帮用户优化报税,优化部分双方分成。肖志斌表示,搭建OpenClaw等agent时,会用国内便宜大模型和Anthropic的Sonnet或更好的OpenAI模型,公司还做了OpenClaw的token auto tuner,针对不同任务细分,甚至用模型判断任务复杂度,看能否用便宜模型做。更进阶的套利方式是搭建“智能路由器”,用户需求进来后,先用模型判断任务复杂程度,简单任务分配给便宜模型,复杂任务给Claude或GPT,对用户是黑盒,中间商优化成本结构。钱宇靖称,模型提供商有路由模型判断任务难易,分配给合适模型以最小化成本,还有agent产品如Genspark或Manus,内部了解不同模型能力,针对不同任务分发模型。Nathan Wang认为省token很正常,先设定用户定价和利润率,用便宜token替换高价token给用户,只要用户无感知,仍付高价值token的钱。知县是典型的“混合调度”用户,每天与AI互动几百次,使用Claude、GPT和中国模型,分配不同角色,Opus适合做设计,GPT适合把关、复盘,国产模型用于执行写代码。Nathan Wang从工程化实现角度解释,可先用简单模型检测用户意图,设定指标和阈值区分任务,后期用强化学习或训练方式优化小模型,最终让用户付高价值token的钱,用低价值token服务。肖志斌认为,短期内Token套利有机会,但单个模型如Anthropic已将任务区分能力内置到coding agent中,不过跨模型的调度空间未被穷尽,市场上模型众多,跨模型智能调度有创业空间,需做任务和模型匹配工作,目前只做了初步的API聚合和定价策略,还需深入做到模型质量和任务、模型和硬件的匹配。他判断,最会调度token的系统会赢,且不能仅停留在OpenRouter的程度,大模型厂商会将prompt压缩等功能做进生态系统,通用token调度系统要做得更深。

中国Token出海:结构性的产业机会?

当伦敦的程序员用MiniMax的API跑OpenClaw时,请求从英国出发,经海底光缆到贵州数据中心,GPU工作,几秒钟后结果返回。整个过程中,电未离开中国电网,但价值通过API账单以token形式完成跨境结算,这是一种全新形态的“出口”。中国过去出口日用品、衬衫、家电、电动车等实物,Token出海无需实体商品离境,电力在本地消耗,算力在本地运转,价值通过互联网交付全球开发者,有人称之为“电力出海”。那么,中国token能卖便宜,是因为电价吗?这种状态会持续吗?GMI Cloud创始人Alex认为,美国不缺电,缺的是配电能力,审批流程冗长,建变电站困难。实际上,中美工业电价绝对值差异不大,中国工业用电0.4 - 0.6元/度,美国0.8 - 1.2元/度,真正拉开差距的是基础设施响应速度,中国可在西部沙漠铺光伏板,通过特高压电网送电到东部算力集群。从存储等供应链角度看,Alex认为token价格短期内难以下降,DDR4的DRAM价格是一年前的10倍,CX7、电源供应和CPU都缺货,供应链跟不上OpenClaw、agent、多模态和编程发展的节奏。钱宇靖认为,最大挑战是建足够多的数据中心,云服务商虽会提升token效率、降低延迟,但最终受限于数据中心数量、卡的数量和通电情况。这波出海红利已体现在收入上,MiniMax海外收入占比超七成,月之暗面在Kimi K2.5发布后数周内收入超2025年全年,智谱的模型API收入今年爆发式增长。目前token需求无明显天花板,因为并非所有人都用OpenClaw,各行业也未完全AI化,token消耗正从“人类主动发起”变为“机器自动运转”,从少数极客扩散到普通开发者和知识工作者,token需求将呈指数级增长。如果上一个时代中国出口衬衫和家电,这个时代是电动车,那么下一个时代可能就是token。对Meta员工来说,token是排行榜上的勋章;对创业公司来说,是每月最大开支;对OpenRouter来说,是抽佣的流水;对中国云厂商来说,是把电力变成美元的管道;对黄仁勋来说,Token会成为大宗商品,与芯片挂钩。钱宇靖认为,token是大宗商品,人类历史上销售大宗商品的方式都会在token上重现,只要底层模型技术过硬,准确性差异不大。未来,Token会成为大宗商品,围绕它的期货、套利、批发零售、聚合平台、计量计费等商业模式都会重演,token定价方式也可能发生巨大变化,如按“复杂度计费”或按任务完成度计费,这一切会在几个月内迅速发生,这场游戏才刚刚开始。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 2:41:38

ARM TLB指令解析:RVAAE1OS与RVAALE1深度剖析

1. ARM TLB指令基础解析在ARM架构中,TLB(Translation Lookaside Buffer)是内存管理单元(MMU)的核心组件,负责缓存虚拟地址到物理地址的转换结果。当操作系统修改页表后,必须同步失效TLB中对应的…

作者头像 李华
网站建设 2026/5/15 2:34:12

从零构建现代软件开发全链路工程实践体系

1. 项目概述与核心价值最近在开发者圈子里,一个名为“OpenCode-Everything-You-Need-to-Know”的项目仓库(epicface44/OpenCode)引起了我的注意。乍一看这个标题,可能会觉得又是一个“大而全”的教程合集,但当我深入探…

作者头像 李华
网站建设 2026/5/15 2:31:07

搭建城市排水水力模型:CAD数据处理→SWMM建模→一维二维耦合→海绵城市指标

随着计算机的广泛应用和各类模型软件的发展,将排水系统模型作为城市洪灾评价与防治的技术手段已经成为防洪防灾的重要技术途径。本次培训将聚焦于综合利用GIS及CAD等工具高效地进行大规模城市排水系统水力模型的建立,利用SWMM实现排水系统水力模拟。包含…

作者头像 李华
网站建设 2026/5/15 2:26:06

基于micro:bit与Bonsai Buckaroo的智能盆栽自动浇水系统全栈开发指南

1. 项目概述与核心价值如果你和我一样,养死过几盆心爱的绿植,多半不是因为不上心,而是“上心”的时机总不对。浇水这事儿,讲究一个“见干见湿”,但现代人生活节奏快,谁能天天盯着盆土看呢?于是&…

作者头像 李华