Token成AI新“货币”：中美模型价差大，中国Token出海或成新产业机会-平芜编程栈

Token - maxxing之辩：用得越多就越好吗？

4月初，Meta被爆内部有“Claudeonomics”排行榜，汇集超85000名Meta员工的AI使用数据，列出token消耗量最高的前250名“超级用户”。最近一个月，排行榜总使用量突破60万亿token，按Anthropic Opus 4.6的定价，这些token价值约9亿美元，排名第一的员工烧掉的token价值达数百万美元。此消息曝光后，在硅谷引发大辩论。AI创业公司Writer的CEO May Habib称这是“生死存亡级别的问题”，她公司内部也有token消耗排行榜，她明确表示自己在关注该数据，认为不全力拥抱AI就会被淘汰。Uber也很激进，目前其后端系统中11%的新代码更新已由agent完成，而三个月前这一比例还不到1%，Uber CTO表示要把软件工程转型为agent软件工程。但反对Token - maxxing的声音同样尖锐。HubSpot的CEO Yamini Rangan在LinkedIn上发文“Outcome maxxing>>token maxxing”，认为比起疯狂消耗token，更应关注产出结果，纯粹的token使用量是错误指标。AI软件工程公司Jellyfish的CEO Andrew Lau直言，刷token可能得不到想要的结果。两派争论激烈，但更多中间派形成共识：不充分利用AI的公司会被竞争对手超越并变得过时。即便排行榜和激励制度不完美，即便一些AI使用最终被证明是浪费，大厂创始人和高层们仍认为必须这么做才能让公司转型为更AI - native的公司。自OpenClaw爆火以来，agent任务烧掉的token量直线上升。科技巨头可不顾成本烧token，但创业公司和个人开发者却因token成本而焦虑。资深AI Agent开发者Nathan Wang表示，跑OpenClaw任务，稍微复杂点就可能消耗几千万token；GMICloud工程主管钱宇靖称，跑最贵的Claude模型，做小事也要花十几二十美元。Uber的CTO透露，公司2026年的AI预算在开年几个月内就已用完，主要是工程师对Claude Code的使用量暴增。硅谷知名投资人Chamath Palihapitiya也抱怨，他投资的软件公司自团队使用AI编程工具后，运营成本几个月内翻了三倍多，年化AI支出将达千万美元级别。对于企业，特别是软件SaaS行业，AI时代的成本结构与过去截然不同。以前做SaaS产品，研发投入是一次性的，用户越多边际成本越低；现在，每个用户的每次操作都有token账单，用量越多，产品方付给模型厂商的钱越多，成本不会像传统软件那样摊薄到接近零，而是随用量线性增长。正因如此，token成为AI创业公司最核心的“弹药”，风投基金开始尝试直接给被投企业提供token额度作为投资的一部分，逻辑很简单：很多AI创业项目拿到钱后第一件事就是买token，直接给token更方便。那么，token是否会成为一种新的货币？它又是如何定价的呢？

拆解Token账单：大模型公司到底怎么算钱？

Token的定价并非“一个单价乘以数量”那么简单。以一次简单的对话交互为例，账单上至少有三种不同价格的token：Input token（输入token），即发给模型的内容；Cached input token（被缓存的输入token），若某些prompt、上下文或文件内容之前已被模型系统缓存，再次调用时价格更便宜；Output token（输出token），即模型生成回答时产生的token。研究芯片与token efficiency方向的肖志斌表示，在对话任务上，三者价格大概是1:0.1:6的水平。对于对话类应用，喂给模型的input context等作为input，若prompt已被缓存，成本是input token成本的1/10，输出成本是input token成本的6倍，这是OpenAI目前的情况。不同公司根据模型能力定价不同。例如，GPT - 5的API价格，Input是每百万token 1.25美元，Cached input是每百万token 0.125美元，Output token是每百万token 10美元。OpenAI的最新模型GPT - 5.5分长短上下文两档，长上下文价格是短上下文的2倍，短上下文Input是每百万token 5美元，Cached input是每百万token 0.5美元，Output token是每百万token 30美元。虽然价格看似上涨，但实际上越贵的模型可能总成本更低。因为强模型一次就能做对，弱模型可能需反复重试，出错还需人工介入，综合成本更高。所以，最贵的GPT - 5.5 - pro和GPT - 5.4 - pro，短上下文Input是每百万token 30美元，Output token是每百万token 180美元，长上下文更贵，但在复杂任务和场景上，若能力足够强，能降低开发者成本。在agent场景，情况更复杂。agent会来回调用模型，每步可能调用不同工具，工具产生新日志和上下文，返回给agent继续循环调用。最终完成任务用的token数取决于任务调用agent loop的次数。高质量模型可能一次生成想要的答案，调用工具合适，返回output也符合需求；便宜模型可能需多次迭代，来回调用，甚至出错。因此，存在越贵的模型完成任务成本反而越低的悖论。不同模型公司定价，一方面由模型推理成本和大模型研发费用决定，更关键的是按模型质量和任务完成度。肖志斌认为，推理成本是基本成本，还需摊平大模型研发费用，但最重要的是按模型质量定价，不同模型的推理能力、上下文窗口大小、完成任务次数等都影响定价，很多公司按推理成本定价不可取，应按模型质量或任务完成度定价。还有云厂商，如微软Azure、亚马逊AWS、国内的阿里和火山引擎等。企业通过云厂商调用模型，收到的token账单是从云厂商处给出的。云厂商对token的收费与大模型公司的API官方收费相差不大，但有时因提供更多服务和能力，如区域部署、特定数据驻留、企业合规、优先推理、托管能力、私有化或专用吞吐等服务，价格会更贵，此时token账单为：模型token费 + 云服务封装 + 企业级基础设施溢价。钱宇靖表示，大部分云服务商根据模型在机器上的token每秒产出量，反向推算GPU成本，再加溢价得出最终价格，但有时云厂商会因企业折扣或抢占市场而降低价格。在后OpenClaw时期，硅谷掀起Token - maxxing热潮，人们发现token账单惊人。此时，中国的开源模型因性价比高，在国际开发者社区大受欢迎。Nathan Wang称Kimi的input不到55美分，output约2.6美元；知县提到MiniMax受OpenClaw官方推荐，试用后发现虽顶级能力稍差，但很多工作不需要太高推理能力，重要的是便宜，中美模型在一些任务上的价差可达50 - 70倍，这解释了全球开发者转向中国便宜模型的原因。

登顶token调用排行榜：中国模型如何做到超高性价比

OpenClaw爆火后，开源模型调用需求飙升，已上市的中国模型厂商，如Zhipu AI和MiniMax股价疯涨。2026年3月，阿里云、百度智能云、智谱、腾讯云混元系列模型等主要厂商集体涨价，涨幅从5%到400%不等。钱宇靖认为，开源模型token消耗量上升是因为其能力越过门槛，如智谱和Kimi在编程上有较大提升，而编程是大模型token消耗最大的赛道之一，程序员发现开源模型与几个月前的Anthropic模型一样好用且价格便宜，自然会转向开源模型，这导致开源模型价格上升。对于个人开发者和创业公司，处理不复杂任务时转向开源模型是合理的。以MiniMax M2.5和Claude Opus 4.6对比，在SWE - Bench Verified软件工程基准测试中，两者得分分别为80.2%和80.8%，实际使用中差距不大，但价格差异明显，MiniMax M2.5输入价格是每百万token 0.3美元，Claude Opus 4.6是5美元，对于每天跑几千万token的OpenClaw用户，成本从几百美元降到几十美元。中国模型能做到便宜，肖志斌认为，一是技术层面采用MoE（混合专家模型），深度使用MoE，专家size变小，每次运行的专家数目不大，可节省成本；二是生态问题，通过补贴抢占生态；三是像阿里这样的云厂商，自身成本定价可低于外部，有更高利润率来降低模型价格。不同模型为开发者提供了不同选择，复杂任务交给高性能模型，简单或重复性高的任务交给便宜模型，这种混合使用成为agent时代的新token模式。黄仁勋在GTC 2026上给出token定价框架，将token分为免费层（高吞吐、低交互速度，靠广告变现）、中级层（每百万token 3美元）、高级层（每百万token 6美元）、高速层（每百万token 45美元）和超高速层（每百万token 150美元），他认为token价格应由交互速度和使用场景决定。然而，暴增的需求背后，存在一个问题：是否真的需要消耗这么多token？一些业内人士批评，全球企业级AI应用中，近一半的token可能未产生实际价值。因为agent不像人类能“够了就停”，执行任务时会反复读取对话历史、扫描已处理文件、重复喂入过期上下文，冗余信息不断增加，真正与任务相关的只占一小部分。如何让Agent少烧冤枉钱，成为新的技术和商业赛道，Token Efficiency成为下个阶段的关键词，OpenRouter就是一个例子。

OpenRouter：从NFT到AI的“货架之王”

OpenRouter平台成为观察全球模型使用趋势的镜子，很多关于中国模型调用和排名的数据图都出自该平台。其创始人Alex Atallah曾是全球最大NFT交易所OpenSea的联合创始人兼CTO。2023年，他开始做OpenRouter，其生意逻辑简单：市面上模型增多，开发者不想每家单独注册、充值、对接API格式，OpenRouter提供统一入口，所有模型一个接口搞定，平台抽取约5%的费用。据报道，a16z在2025年对OpenRouter领投4000万美元，当时估值约5亿美元，最新一轮融资将估值推至接近13亿美元。OpenClaw的爆发让OpenRouter生意起飞，全球开发者调用模型驱动Agent工作流时，需要一个能快速切换模型的中间层，OpenRouter正好满足需求。Atallah将OpenRouter与上次创业类比，认为供给越分散，中间商越值钱。肖志斌表示，OpenRouter加了一层API调用层，与OpenAI的API调用兼容，能自动切换不同模型，统一API和定价，对AI初创公司来说，可快速上线、试错、找到匹配模型，还有fallback机制，一个模型出问题可快速切换到另一个模型。但OpenRouter也有数据局限性。肖志斌指出，很多token使用量统计不到，初创公司可能用OpenRouter，发展到一定阶段会混用OpenRouter和直接API调用，大厂或业务明确的公司会直接调用Anthropic、OpenAI或Google的API，所以OpenRouter的数据更像创业公司和独立开发者群体的风向标，而非整个AI行业的全景图，但这个群体对价格敏感、愿意尝鲜、迁移成本低，构成中国模型出海的第一波“自来水”用户。

Metronome：谁在给Token“装电表”？

如果token是AI时代的“电”，那么Metronome就是给这些“电”装电表的公司。OpenAI、NVIDIA、Anthropic、Databricks等都使用该公司的计费系统。Metronome创始团队背景特殊，两位创始人出自Dropbox，经历过SaaS工程师头疼的改定价问题，到AI时代，收费单位变为token数、API调用次数、GPU时长等细粒度指标，每个客户的合同条款、折扣结构、用量阶梯都可能不同。知县认为，SaaS成本相对稳定，而token公司情况复杂，与卡、电、请求量有关，即使买顶级套餐有时也需排队，不同任务对token消耗成本不同。Metronome的核心是清晰记录谁在何时调用了什么、花了多少token，但大部分公司自己做不好，因为“发生了什么”和“该怎么收费”是两套不同逻辑，耦合在一起会使系统脆弱。Metronome将这两件事拆开，工程团队上报用量数据，产品和销售团队配置价格和合同条款，中间的换算、出账、对账全部自动化。知县认为Metronome的做法合理，先不考虑计费，记录用户与API交互事件，再对事件流定价，然后有不同计费方式，最后可能为销售打折。该公司发展迅速，累计融资约1.28亿美元，今年1月被Stripe收购，一个100人的计费基础设施团队，估值追上很多做模型的公司，说明在token经济里，“怎么算钱”越来越重要。

Token套利：当“中间商”开始赚差价

开发者会混合使用不同模型，复杂任务用Claude、GPT等昂贵模型，简单任务用MiniMax、kimi等中国性价比模型，由此出现Token Arbitrage（Token套利）的商业模式。知县认为，这类似国内买运营商套餐，全用便宜模型和全用贵模型，用户感受可能差异不大，存在套利空间，本质上用户买单，只要用户觉得没问题就行，就像税务审计师帮用户优化报税，优化部分双方分成。肖志斌表示，搭建OpenClaw等agent时，会用国内便宜大模型和Anthropic的Sonnet或更好的OpenAI模型，公司还做了OpenClaw的token auto tuner，针对不同任务细分，甚至用模型判断任务复杂度，看能否用便宜模型做。更进阶的套利方式是搭建“智能路由器”，用户需求进来后，先用模型判断任务复杂程度，简单任务分配给便宜模型，复杂任务给Claude或GPT，对用户是黑盒，中间商优化成本结构。钱宇靖称，模型提供商有路由模型判断任务难易，分配给合适模型以最小化成本，还有agent产品如Genspark或Manus，内部了解不同模型能力，针对不同任务分发模型。Nathan Wang认为省token很正常，先设定用户定价和利润率，用便宜token替换高价token给用户，只要用户无感知，仍付高价值token的钱。知县是典型的“混合调度”用户，每天与AI互动几百次，使用Claude、GPT和中国模型，分配不同角色，Opus适合做设计，GPT适合把关、复盘，国产模型用于执行写代码。Nathan Wang从工程化实现角度解释，可先用简单模型检测用户意图，设定指标和阈值区分任务，后期用强化学习或训练方式优化小模型，最终让用户付高价值token的钱，用低价值token服务。肖志斌认为，短期内Token套利有机会，但单个模型如Anthropic已将任务区分能力内置到coding agent中，不过跨模型的调度空间未被穷尽，市场上模型众多，跨模型智能调度有创业空间，需做任务和模型匹配工作，目前只做了初步的API聚合和定价策略，还需深入做到模型质量和任务、模型和硬件的匹配。他判断，最会调度token的系统会赢，且不能仅停留在OpenRouter的程度，大模型厂商会将prompt压缩等功能做进生态系统，通用token调度系统要做得更深。

中国Token出海：结构性的产业机会？

当伦敦的程序员用MiniMax的API跑OpenClaw时，请求从英国出发，经海底光缆到贵州数据中心，GPU工作，几秒钟后结果返回。整个过程中，电未离开中国电网，但价值通过API账单以token形式完成跨境结算，这是一种全新形态的“出口”。中国过去出口日用品、衬衫、家电、电动车等实物，Token出海无需实体商品离境，电力在本地消耗，算力在本地运转，价值通过互联网交付全球开发者，有人称之为“电力出海”。那么，中国token能卖便宜，是因为电价吗？这种状态会持续吗？GMI Cloud创始人Alex认为，美国不缺电，缺的是配电能力，审批流程冗长，建变电站困难。实际上，中美工业电价绝对值差异不大，中国工业用电0.4 - 0.6元/度，美国0.8 - 1.2元/度，真正拉开差距的是基础设施响应速度，中国可在西部沙漠铺光伏板，通过特高压电网送电到东部算力集群。从存储等供应链角度看，Alex认为token价格短期内难以下降，DDR4的DRAM价格是一年前的10倍，CX7、电源供应和CPU都缺货，供应链跟不上OpenClaw、agent、多模态和编程发展的节奏。钱宇靖认为，最大挑战是建足够多的数据中心，云服务商虽会提升token效率、降低延迟，但最终受限于数据中心数量、卡的数量和通电情况。这波出海红利已体现在收入上，MiniMax海外收入占比超七成，月之暗面在Kimi K2.5发布后数周内收入超2025年全年，智谱的模型API收入今年爆发式增长。目前token需求无明显天花板，因为并非所有人都用OpenClaw，各行业也未完全AI化，token消耗正从“人类主动发起”变为“机器自动运转”，从少数极客扩散到普通开发者和知识工作者，token需求将呈指数级增长。如果上一个时代中国出口衬衫和家电，这个时代是电动车，那么下一个时代可能就是token。对Meta员工来说，token是排行榜上的勋章；对创业公司来说，是每月最大开支；对OpenRouter来说，是抽佣的流水；对中国云厂商来说，是把电力变成美元的管道；对黄仁勋来说，Token会成为大宗商品，与芯片挂钩。钱宇靖认为，token是大宗商品，人类历史上销售大宗商品的方式都会在token上重现，只要底层模型技术过硬，准确性差异不大。未来，Token会成为大宗商品，围绕它的期货、套利、批发零售、聚合平台、计量计费等商业模式都会重演，token定价方式也可能发生巨大变化，如按“复杂度计费”或按任务完成度计费，这一切会在几个月内迅速发生，这场游戏才刚刚开始。