现有AI Agent完成长流程工作远没那么简单
想象一个真实的工作日,项目经理更新项目状态、财务人员整理客户账单、医疗管理员核对预约和保险信息,这些普通日常工作,对AI Agent来说却不简单。它要理解业务目标、跨应用查找信息、保持状态一致,还得在几十甚至上百步操作后,把所有细节正确落到系统里。
真实办公场景下的SaaS-Bench评测
过去一年,GUI Agent宣称能替人类干活,Benchmark成绩飙升,但UniPat AI用数据证明这一切并不靠谱。SaaS-Bench直接把真系统搬进Docker,让Agent在真实环境中干活。它精心挑选23个开源SaaS系统,覆盖软件研发、业务财务、医疗管理等六个专业领域,且系统中填充了真实业务数据。
106个任务中,93.4%跨越至少两个应用,三应用任务占一半,纯文本任务74个,涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算,97.3%的文本任务操作步数超过100步,最长轨迹达300 + 步。
评测结果:全军覆没,问题重重
主要结果显示,最强的Claude Opus 4.7检查点分数43.9%,端到端完全通过分数只有3.8%,106个任务只完整通过4个;Kimi K2.5和Gemini 3.1 Pro完全通过分数为零。
把每个模型在同一任务上独立跑3次,pass@3相比pass@1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%,但执行极不稳定。
从三个结构维度看,分数与应用数、步长、检查点个数均呈单调递减关系。跨应用数1→4,平均分从53%降至20%;操作步长增加,得分显著降低;检查点个数≤6 vs ≥18,平均分从65%降至27%。
四种结构性失败暴露AI Agent深层局限
失败1:任务越长,越做不对。即使每个检查点通过率高达95%,12个检查点的全部通过概率也只有54%,且所有模型通过率随任务推进呈下降趋势。
失败2:一步错,步步错。如创建公司客户时触发个人客户逻辑,导致后续发票、付款记录等全部挂在错误实体下,一个3%的错误节点造成30%的分数损失。
失败3:做完不检查,自以为对了。Claude Opus 4.6识别出日期错误并修改,但未复查,提交时汇报错误,Agent意图与验证器状态存在断层。
失败4:同一张考卷,成绩忽高忽低。Claude Sonnet 4.6在同一任务的三次独立运行中,分数范围从0.00到0.68,这是路径依赖导致的。
未来展望:软件或需为AI Agent重新设计
SaaS-Bench揭示了AI Agent的短板,也表明当前软件形态可能需要为Agent重新设计。今天的SaaS是为人类设计的,当Agent成为主要用户,现有界面会成为累赘。未来不是让Agent学会操作人类软件,而是软件本身要为Agent重新设计。