引言
2026年4月,AI Agent领域出了两份截然相反的「成绩单」。
第一份来自Anthropic总部。他们把一个办公室变成了内部二手市场:69个AI Agent在500+件商品中自由交易,成功撮合了186笔交易,总金额$4,000。从滑雪板到乒乓球,Agent们谈价格、比选择、完成交割——一切运转得像一个真正的市场。
第二份来自General Reasoning的KellyBench。他们让前沿模型管理虚拟资金,在38周的英超赛季博彩数据中进行投注。结果?24个模型-种子组合中,21个亏到见底。即便是表现最好的Claude Opus 4.6,复杂决策评分也只有32.6%。
这一喜一悲之间,藏着AI Agent经济最核心的真相。
一、Project Deal:受限市场中的「小繁荣」
Anthropic的Project Deal实验设计得非常巧妙。他们把旧金山总部的办公室变成了一个为期一周的内部经济:
- 参与者:69个由员工支持的AI Agent
- 商品池:500+件真实物品——员工们真的把自己的东西拿出来卖
- 交易量:186笔交易,总金额$4,000
- 规则:买方Agent和卖方Agent自主协商、比价、成交
从表面看,这是一个巨大的成功。Agent们证明了自己可以在一个有界市场中高效运作:浏览列表、比较价格、达成交易。
但深入研究数据,一个更微妙的发现浮出水面:能力是复合的。
Opus 4.5驱动的Agent在价格谈判和商品选择上系统性碾压Haiku 4.5的Agent。更强的模型拿走了更好的交易。而弱模型的主人——那些人类员工——完全不知道自己的Agent吃了亏。
这意味着什么?AI Agent经济的「公平性」可能是一个幻觉。在没有人为干预的情况下,更好的模型天然拥有更强的议价能力,而代理差距会自我强化——好的越好,差的越差。
二、KellyBench:开放市场的「大屠杀」
如果Project Deal是Agent在游泳池里游泳,那KellyBench就是把它们扔进了汪洋大海。
KellyBench的测试场景是:给每个模型$500虚拟资金,要求它们根据历史英超赛季的博彩赔率数据,在38周内进行投注决策。这不是简单的「猜胜负」——模型需要理解赔率、计算期望值、管理资金风险、避免破产。
结果惨不忍睹:-24个模型-种子组合中,只有3个没有破产-所有前沿模型的平均收益为负-最强模型Opus 4.6的复杂决策评分仅32.6%(满分100)
为什么受限市场中的成功无法迁移到开放市场?
关键区别在于三个维度:
| 维度 | Project Deal | KellyBench |
|---|---|---|
| 信息结构 | 清晰、稳定 | 噪声大、不稳定 |
| 反馈周期 | 即时 | 延迟、不确定 |
| 市场动态 | 简单双边撮合 | 非平稳概率分布 |
当信息是清晰稳定的,当反馈是即时的,当市场动态是简单的——Agent表现出色。一旦任何一个条件被打破,能力曲线就开始崩塌。
三、一个悖论:为什么受限市场才是AI的主战场?
这两个实验放在一起,揭示出一个反直觉的结论:
AI Agent最适合的市场,不是「开放的自由市场」,而是「受限的结构化市场」。
这个结论与过去几年AI创业圈的主流叙事完全相反。主流叙事是:AI Agent将颠覆一切市场——从跨境电商到金融交易到房产中介。但实验数据告诉我们:在结构化、可预测、反馈明确的环境中,Agent确实可以超越人类效率;但在噪声大、动态变化、反馈延迟的环境中,Agent的表现退化为随机游走。
这不是模型能力的问题。这是一个关于世界的可建模性的问题。
市场不是一个简单的优化问题。它包含战略性信息不对称、博弈论均衡、非理性行为、黑天鹅事件——所有这些东西,当前的AI Agent训练范式都还没有触及。
四、现实中的「甜点区」:Agent正在哪些领域默默赚钱?
好消息是,世界上的大部分经济活动,其实都是「受限的结构化市场」。
Ramp的采购Agent已经在实际部署中实现了3倍加速和16%的供应商成本降低。采购流程天然是结构化的:固定的供应商池、标准化的比价逻辑、明确的下单流程。
Avoca的HVAC服务Agent以10亿美元估值融了$1.25亿,专门处理空调暖通领域的服务调度和报价。这也是一个高度结构化的市场:标准化的服务目录、价格带、地理区域。
Reserv的保险理赔Agent处理结构化理赔流程,估值快速攀升。
这些公司的共同点:它们选对了市场类型。从来不去碰开放博彩市场、开放金融交易、开放电商竞价——那些地方留给人类和高频交易算法去厮杀。它们在结构化的、流程化的、可预测的商业流程中找到了Agent的「黄金地带」。
五、对从业者的启示:Agent产品的「市场选择」铁律
从Project Deal和KellyBench的对照实验中,可以提炼出几条Agent产品的设计铁律:
1. 选结构化市场,放弃开放市场
如果市场特征包括:可枚举的选项、标准化的决策维度、可预测的反馈周期——那是Agent的甜点区。如果市场特征是:高噪声、非平稳分布、战略性博弈——现阶段远离。
2. 不要假装Agent能「理解」市场
KellyBench的数据残酷地表明:Agent在赔率面前的决策质量,基本等同于随机。不是因为模型不够聪明,而是因为「理解市场」需要的认知能力远超出当前LLM的能力边界。
3. 设计护栏,而不是追求完全自主
Project Deal中Agent被限定在内部二手市场——有边界、有规则、有即时反馈。这种「护栏式部署」才是现阶段正确的产品形态。
4. 关注「Agent能力鸿沟」的公平性问题
更强的模型在市场中系统性碾压弱模型——这个问题目前被忽略了。当Agent经济规模化后,监管者和平台都需要面对这个公平性问题。
结语
Project Deal 证明了可能性。KellyBench 划定了边界。
在这两者之间,就是AI Agent经济未来2-3年真正的战场。不是要取代开放市场中的交易员,而是要接管企业中那些高度结构化、重复性、规则明确的操作流程。这个市场已经足够大了——大到足以孕育出一批估值百亿美元的Agent公司。
至于「Agent自主在市场里赚钱」的梦想?等模型先学会不破产再说。
本文基于Anthropic Project Deal报告、KellyBench论文、Ramp、Avoca等公司的公开信息整理分析。