AI Agent 围城：在受限市场躺赢，在开放市场亏光——Project Deal 与 KellyBench 的双面启示-平芜编程栈

引言

2026年4月，AI Agent领域出了两份截然相反的「成绩单」。

第一份来自Anthropic总部。他们把一个办公室变成了内部二手市场：69个AI Agent在500+件商品中自由交易，成功撮合了186笔交易，总金额$4,000。从滑雪板到乒乓球，Agent们谈价格、比选择、完成交割——一切运转得像一个真正的市场。

第二份来自General Reasoning的KellyBench。他们让前沿模型管理虚拟资金，在38周的英超赛季博彩数据中进行投注。结果？24个模型-种子组合中，21个亏到见底。即便是表现最好的Claude Opus 4.6，复杂决策评分也只有32.6%。

这一喜一悲之间，藏着AI Agent经济最核心的真相。

一、Project Deal：受限市场中的「小繁荣」

Anthropic的Project Deal实验设计得非常巧妙。他们把旧金山总部的办公室变成了一个为期一周的内部经济：

参与者：69个由员工支持的AI Agent
商品池：500+件真实物品——员工们真的把自己的东西拿出来卖
交易量：186笔交易，总金额$4,000
规则：买方Agent和卖方Agent自主协商、比价、成交

从表面看，这是一个巨大的成功。Agent们证明了自己可以在一个有界市场中高效运作：浏览列表、比较价格、达成交易。

但深入研究数据，一个更微妙的发现浮出水面：能力是复合的。

Opus 4.5驱动的Agent在价格谈判和商品选择上系统性碾压Haiku 4.5的Agent。更强的模型拿走了更好的交易。而弱模型的主人——那些人类员工——完全不知道自己的Agent吃了亏。

这意味着什么？AI Agent经济的「公平性」可能是一个幻觉。在没有人为干预的情况下，更好的模型天然拥有更强的议价能力，而代理差距会自我强化——好的越好，差的越差。

二、KellyBench：开放市场的「大屠杀」

如果Project Deal是Agent在游泳池里游泳，那KellyBench就是把它们扔进了汪洋大海。

KellyBench的测试场景是：给每个模型$500虚拟资金，要求它们根据历史英超赛季的博彩赔率数据，在38周内进行投注决策。这不是简单的「猜胜负」——模型需要理解赔率、计算期望值、管理资金风险、避免破产。

结果惨不忍睹：-24个模型-种子组合中，只有3个没有破产-所有前沿模型的平均收益为负-最强模型Opus 4.6的复杂决策评分仅32.6%（满分100）

为什么受限市场中的成功无法迁移到开放市场？

关键区别在于三个维度：

维度	Project Deal	KellyBench
信息结构	清晰、稳定	噪声大、不稳定
反馈周期	即时	延迟、不确定
市场动态	简单双边撮合	非平稳概率分布

当信息是清晰稳定的，当反馈是即时的，当市场动态是简单的——Agent表现出色。一旦任何一个条件被打破，能力曲线就开始崩塌。

三、一个悖论：为什么受限市场才是AI的主战场？

这两个实验放在一起，揭示出一个反直觉的结论：

AI Agent最适合的市场，不是「开放的自由市场」，而是「受限的结构化市场」。

这个结论与过去几年AI创业圈的主流叙事完全相反。主流叙事是：AI Agent将颠覆一切市场——从跨境电商到金融交易到房产中介。但实验数据告诉我们：在结构化、可预测、反馈明确的环境中，Agent确实可以超越人类效率；但在噪声大、动态变化、反馈延迟的环境中，Agent的表现退化为随机游走。

这不是模型能力的问题。这是一个关于世界的可建模性的问题。

市场不是一个简单的优化问题。它包含战略性信息不对称、博弈论均衡、非理性行为、黑天鹅事件——所有这些东西，当前的AI Agent训练范式都还没有触及。

四、现实中的「甜点区」：Agent正在哪些领域默默赚钱？

好消息是，世界上的大部分经济活动，其实都是「受限的结构化市场」。

Ramp的采购Agent已经在实际部署中实现了3倍加速和16%的供应商成本降低。采购流程天然是结构化的：固定的供应商池、标准化的比价逻辑、明确的下单流程。

Avoca的HVAC服务Agent以10亿美元估值融了$1.25亿，专门处理空调暖通领域的服务调度和报价。这也是一个高度结构化的市场：标准化的服务目录、价格带、地理区域。

Reserv的保险理赔Agent处理结构化理赔流程，估值快速攀升。

这些公司的共同点：它们选对了市场类型。从来不去碰开放博彩市场、开放金融交易、开放电商竞价——那些地方留给人类和高频交易算法去厮杀。它们在结构化的、流程化的、可预测的商业流程中找到了Agent的「黄金地带」。

五、对从业者的启示：Agent产品的「市场选择」铁律

从Project Deal和KellyBench的对照实验中，可以提炼出几条Agent产品的设计铁律：

1. 选结构化市场，放弃开放市场

如果市场特征包括：可枚举的选项、标准化的决策维度、可预测的反馈周期——那是Agent的甜点区。如果市场特征是：高噪声、非平稳分布、战略性博弈——现阶段远离。

2. 不要假装Agent能「理解」市场

KellyBench的数据残酷地表明：Agent在赔率面前的决策质量，基本等同于随机。不是因为模型不够聪明，而是因为「理解市场」需要的认知能力远超出当前LLM的能力边界。

3. 设计护栏，而不是追求完全自主

Project Deal中Agent被限定在内部二手市场——有边界、有规则、有即时反馈。这种「护栏式部署」才是现阶段正确的产品形态。

4. 关注「Agent能力鸿沟」的公平性问题

更强的模型在市场中系统性碾压弱模型——这个问题目前被忽略了。当Agent经济规模化后，监管者和平台都需要面对这个公平性问题。

结语

Project Deal 证明了可能性。KellyBench 划定了边界。

在这两者之间，就是AI Agent经济未来2-3年真正的战场。不是要取代开放市场中的交易员，而是要接管企业中那些高度结构化、重复性、规则明确的操作流程。这个市场已经足够大了——大到足以孕育出一批估值百亿美元的Agent公司。

至于「Agent自主在市场里赚钱」的梦想？等模型先学会不破产再说。

本文基于Anthropic Project Deal报告、KellyBench论文、Ramp、Avoca等公司的公开信息整理分析。

AI Agent 围城：在受限市场躺赢，在开放市场亏光——Project Deal 与 KellyBench 的双面启示

引言

一、Project Deal：受限市场中的「小繁荣」

二、KellyBench：开放市场的「大屠杀」

三、一个悖论：为什么受限市场才是AI的主战场？

四、现实中的「甜点区」：Agent正在哪些领域默默赚钱？

五、对从业者的启示：Agent产品的「市场选择」铁律

结语

手把手教你用Stm32F4驱动AD7606模块（附SPI配置与常见问题解决）

ZYNQ7100实战：用AXI DMA搞定PL到PS的ADC数据流（Vivado 2017.4配置避坑）

Photoshop图层批量导出终极指南：告别繁琐，一键完成高效导出

别再只用Logistic了！用MATLAB玩转Piecewise混沌映射（PWLCM），从原理到可视化一次搞定

高危场所专用防爆门符合建筑消防标准

书成紫微动，律定凤凰驯：一破一立，铁哥的两部作品如何构成完整的文化闭环

引言

一、Project Deal：受限市场中的「小繁荣」

二、KellyBench：开放市场的「大屠杀」

三、一个悖论：为什么受限市场才是AI的主战场？

四、现实中的「甜点区」：Agent正在哪些领域默默赚钱？

五、对从业者的启示：Agent产品的「市场选择」铁律

结语

手把手教你用Stm32F4驱动AD7606模块（附SPI配置与常见问题解决）

ZYNQ7100实战：用AXI DMA搞定PL到PS的ADC数据流（Vivado 2017.4配置避坑）

Photoshop图层批量导出终极指南：告别繁琐，一键完成高效导出

别再只用Logistic了！用MATLAB玩转Piecewise混沌映射（PWLCM），从原理到可视化一次搞定

高危场所专用防爆门 符合建筑消防标准

书成紫微动，律定凤凰驯：一破一立，铁哥的两部作品如何构成完整的文化闭环

高危场所专用防爆门符合建筑消防标准