news 2026/5/16 22:26:08

AI Agent 围城:在受限市场躺赢,在开放市场亏光——Project Deal 与 KellyBench 的双面启示

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI Agent 围城:在受限市场躺赢,在开放市场亏光——Project Deal 与 KellyBench 的双面启示

引言

2026年4月,AI Agent领域出了两份截然相反的「成绩单」。

第一份来自Anthropic总部。他们把一个办公室变成了内部二手市场:69个AI Agent在500+件商品中自由交易,成功撮合了186笔交易,总金额$4,000。从滑雪板到乒乓球,Agent们谈价格、比选择、完成交割——一切运转得像一个真正的市场。

第二份来自General Reasoning的KellyBench。他们让前沿模型管理虚拟资金,在38周的英超赛季博彩数据中进行投注。结果?24个模型-种子组合中,21个亏到见底。即便是表现最好的Claude Opus 4.6,复杂决策评分也只有32.6%。

这一喜一悲之间,藏着AI Agent经济最核心的真相。

一、Project Deal:受限市场中的「小繁荣」

Anthropic的Project Deal实验设计得非常巧妙。他们把旧金山总部的办公室变成了一个为期一周的内部经济:

  • 参与者:69个由员工支持的AI Agent
  • 商品池:500+件真实物品——员工们真的把自己的东西拿出来卖
  • 交易量:186笔交易,总金额$4,000
  • 规则:买方Agent和卖方Agent自主协商、比价、成交

从表面看,这是一个巨大的成功。Agent们证明了自己可以在一个有界市场中高效运作:浏览列表、比较价格、达成交易。

但深入研究数据,一个更微妙的发现浮出水面:能力是复合的。

Opus 4.5驱动的Agent在价格谈判和商品选择上系统性碾压Haiku 4.5的Agent。更强的模型拿走了更好的交易。而弱模型的主人——那些人类员工——完全不知道自己的Agent吃了亏

这意味着什么?AI Agent经济的「公平性」可能是一个幻觉。在没有人为干预的情况下,更好的模型天然拥有更强的议价能力,而代理差距会自我强化——好的越好,差的越差。

二、KellyBench:开放市场的「大屠杀」

如果Project Deal是Agent在游泳池里游泳,那KellyBench就是把它们扔进了汪洋大海。

KellyBench的测试场景是:给每个模型$500虚拟资金,要求它们根据历史英超赛季的博彩赔率数据,在38周内进行投注决策。这不是简单的「猜胜负」——模型需要理解赔率、计算期望值、管理资金风险、避免破产。

结果惨不忍睹:-24个模型-种子组合中,只有3个没有破产-所有前沿模型的平均收益为负-最强模型Opus 4.6的复杂决策评分仅32.6%(满分100)

为什么受限市场中的成功无法迁移到开放市场?

关键区别在于三个维度:

维度Project DealKellyBench
信息结构清晰、稳定噪声大、不稳定
反馈周期即时延迟、不确定
市场动态简单双边撮合非平稳概率分布

当信息是清晰稳定的,当反馈是即时的,当市场动态是简单的——Agent表现出色。一旦任何一个条件被打破,能力曲线就开始崩塌。

三、一个悖论:为什么受限市场才是AI的主战场?

这两个实验放在一起,揭示出一个反直觉的结论:

AI Agent最适合的市场,不是「开放的自由市场」,而是「受限的结构化市场」。

这个结论与过去几年AI创业圈的主流叙事完全相反。主流叙事是:AI Agent将颠覆一切市场——从跨境电商到金融交易到房产中介。但实验数据告诉我们:在结构化、可预测、反馈明确的环境中,Agent确实可以超越人类效率;但在噪声大、动态变化、反馈延迟的环境中,Agent的表现退化为随机游走。

这不是模型能力的问题。这是一个关于世界的可建模性的问题。

市场不是一个简单的优化问题。它包含战略性信息不对称、博弈论均衡、非理性行为、黑天鹅事件——所有这些东西,当前的AI Agent训练范式都还没有触及。

四、现实中的「甜点区」:Agent正在哪些领域默默赚钱?

好消息是,世界上的大部分经济活动,其实都是「受限的结构化市场」。

Ramp的采购Agent已经在实际部署中实现了3倍加速和16%的供应商成本降低。采购流程天然是结构化的:固定的供应商池、标准化的比价逻辑、明确的下单流程。

Avoca的HVAC服务Agent以10亿美元估值融了$1.25亿,专门处理空调暖通领域的服务调度和报价。这也是一个高度结构化的市场:标准化的服务目录、价格带、地理区域。

Reserv的保险理赔Agent处理结构化理赔流程,估值快速攀升。

这些公司的共同点:它们选对了市场类型。从来不去碰开放博彩市场、开放金融交易、开放电商竞价——那些地方留给人类和高频交易算法去厮杀。它们在结构化的、流程化的、可预测的商业流程中找到了Agent的「黄金地带」。

五、对从业者的启示:Agent产品的「市场选择」铁律

从Project Deal和KellyBench的对照实验中,可以提炼出几条Agent产品的设计铁律:

1. 选结构化市场,放弃开放市场

如果市场特征包括:可枚举的选项、标准化的决策维度、可预测的反馈周期——那是Agent的甜点区。如果市场特征是:高噪声、非平稳分布、战略性博弈——现阶段远离。

2. 不要假装Agent能「理解」市场

KellyBench的数据残酷地表明:Agent在赔率面前的决策质量,基本等同于随机。不是因为模型不够聪明,而是因为「理解市场」需要的认知能力远超出当前LLM的能力边界。

3. 设计护栏,而不是追求完全自主

Project Deal中Agent被限定在内部二手市场——有边界、有规则、有即时反馈。这种「护栏式部署」才是现阶段正确的产品形态。

4. 关注「Agent能力鸿沟」的公平性问题

更强的模型在市场中系统性碾压弱模型——这个问题目前被忽略了。当Agent经济规模化后,监管者和平台都需要面对这个公平性问题。

结语

Project Deal 证明了可能性。KellyBench 划定了边界。

在这两者之间,就是AI Agent经济未来2-3年真正的战场。不是要取代开放市场中的交易员,而是要接管企业中那些高度结构化、重复性、规则明确的操作流程。这个市场已经足够大了——大到足以孕育出一批估值百亿美元的Agent公司。

至于「Agent自主在市场里赚钱」的梦想?等模型先学会不破产再说。


本文基于Anthropic Project Deal报告、KellyBench论文、Ramp、Avoca等公司的公开信息整理分析。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/16 22:26:01

手把手教你用Stm32F4驱动AD7606模块(附SPI配置与常见问题解决)

从零构建高精度数据采集系统:STM32F4与AD7606的SPI实战指南 在工业测量、电力监控和医疗设备等领域,16位高精度ADC模块AD7606凭借其10V宽输入范围和200ksps采样率,成为中高端数据采集系统的首选。本文将彻底拆解从硬件连接到软件调试的全流程…

作者头像 李华
网站建设 2026/5/16 22:22:50

ZYNQ7100实战:用AXI DMA搞定PL到PS的ADC数据流(Vivado 2017.4配置避坑)

ZYNQ7100高速ADC数据采集实战:AXI DMA架构设计与性能调优指南 在嵌入式信号处理系统中,ADC数据采集的实时性和稳定性往往决定着整个系统的成败。当采样率突破1MSPS时,传统基于BRAM或GPIO的数据传输方案会立即暴露出带宽不足、延迟不可控等致命…

作者头像 李华
网站建设 2026/5/16 22:19:15

高危场所专用防爆门 符合建筑消防标准

在化工车间、危险品仓库、油气厂区、锅炉房、粉尘车间等高危作业场所,爆炸、明火、冲击波隐患时刻存在,普通门窗无法起到安全防护作用,高危场所专用防爆门成为场地安防必备设施。 这款专业防爆门严格遵循国家建筑消防规范生产制造&#xff0…

作者头像 李华