news 2026/5/26 13:24:50

SaaS-Bench评测:AI Agent完成长流程工作能力欠佳,现有软件或需为其重做

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SaaS-Bench评测:AI Agent完成长流程工作能力欠佳,现有软件或需为其重做

现有AI Agent完成长流程工作远没那么简单

想象一个真实的工作日,项目经理更新项目状态、财务人员整理客户账单、医疗管理员核对预约和保险信息,这些普通日常工作,对AI Agent来说却不简单。它要理解业务目标、跨应用查找信息、保持状态一致,还得在几十甚至上百步操作后,把所有细节正确落到系统里。

真实办公场景下的SaaS-Bench评测

过去一年,GUI Agent宣称能替人类干活,Benchmark成绩飙升,但UniPat AI用数据证明这一切并不靠谱。SaaS-Bench直接把真系统搬进Docker,让Agent在真实环境中干活。它精心挑选23个开源SaaS系统,覆盖软件研发、业务财务、医疗管理等六个专业领域,且系统中填充了真实业务数据。

106个任务中,93.4%跨越至少两个应用,三应用任务占一半,纯文本任务74个,涉及多模态理解的32个。以Claude Opus 4.6的执行轨迹估算,97.3%的文本任务操作步数超过100步,最长轨迹达300 + 步。

评测结果:全军覆没,问题重重

主要结果显示,最强的Claude Opus 4.7检查点分数43.9%,端到端完全通过分数只有3.8%,106个任务只完整通过4个;Kimi K2.5和Gemini 3.1 Pro完全通过分数为零。

把每个模型在同一任务上独立跑3次,pass@3相比pass@1整体提升约8个百分点。Sonnet 4.6在多模态任务上从33.9%跳到52.1%,但执行极不稳定。

从三个结构维度看,分数与应用数、步长、检查点个数均呈单调递减关系。跨应用数1→4,平均分从53%降至20%;操作步长增加,得分显著降低;检查点个数≤6 vs ≥18,平均分从65%降至27%。

四种结构性失败暴露AI Agent深层局限

失败1:任务越长,越做不对。即使每个检查点通过率高达95%,12个检查点的全部通过概率也只有54%,且所有模型通过率随任务推进呈下降趋势。

失败2:一步错,步步错。如创建公司客户时触发个人客户逻辑,导致后续发票、付款记录等全部挂在错误实体下,一个3%的错误节点造成30%的分数损失。

失败3:做完不检查,自以为对了。Claude Opus 4.6识别出日期错误并修改,但未复查,提交时汇报错误,Agent意图与验证器状态存在断层。

失败4:同一张考卷,成绩忽高忽低。Claude Sonnet 4.6在同一任务的三次独立运行中,分数范围从0.00到0.68,这是路径依赖导致的。

未来展望:软件或需为AI Agent重新设计

SaaS-Bench揭示了AI Agent的短板,也表明当前软件形态可能需要为Agent重新设计。今天的SaaS是为人类设计的,当Agent成为主要用户,现有界面会成为累赘。未来不是让Agent学会操作人类软件,而是软件本身要为Agent重新设计。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/26 13:24:37

为什么越来越多企业,开始选择驻点图文服务?

很多人以为,企业打印需求只是:“偶尔打印一些文件”。但实际上,对于很多企业来说,真正需要处理的,往往是大量持续性的输出工作。尤其是在:项目推进阶段企业活动期间展览会议现场长期办公支持集中培训与接待…

作者头像 李华
网站建设 2026/5/26 13:24:19

Burp Suite渗透工作流设计:30款插件的实战装配逻辑

1. 这不是“插件合集”,而是一套可复用的渗透工作流设计逻辑你点开过多少个标题叫“30款必装Burp插件”的文章?我数过,光是2023年全网公开的类似标题就超过176篇。但真正能让你在实战中少走3天弯路、少改5次PoC、少被客户问“为什么没扫出这个…

作者头像 李华
网站建设 2026/5/26 13:23:55

FPGA硬件化强化学习:实现嵌入式系统微秒级智能功耗管理

1. 项目概述:当强化学习遇上FPGA,为嵌入式系统装上“节能大脑”在嵌入式系统的世界里,功耗和性能就像天平的两端,工程师们每天都在为如何平衡它们而绞尽脑汁。动态电压频率缩放(DVFS)是大家熟知的一把利器&…

作者头像 李华
网站建设 2026/5/26 13:23:39

基于多线直通反射线校准的325 GHz互连表征技术详解

1. 项目概述:为什么325 GHz互连表征是个“硬骨头”?在毫米波乃至太赫兹频段搞电路设计,工程师们最头疼的问题之一,可能就是“我的信号到底在互连上损耗了多少?相位变了多少?” 这听起来像是个基础问题&…

作者头像 李华
网站建设 2026/5/26 13:23:16

从收音机到手机:拆解一个经典共射放大电路,聊聊它为啥还没过时

从收音机到手机:拆解一个经典共射放大电路,聊聊它为啥还没过时上世纪60年代,一台晶体管收音机的诞生曾引发消费电子革命。如今翻开任何一部智能手机的电路图,我们依然能找到与当年收音机如出一辙的共射放大结构。这个诞生于贝尔实…

作者头像 李华