小结
本文提出了一种新的基准–MCP-Bench,用于评估 LLM 执行现实复杂任务的能力。
传统的基准通常假定只调用一次应用程序接口(API)或人为连接一个工具链,因此无法充分衡量在现实世界中所需的多个工具之间处理长期规划和模糊指令的能力。
MCP-Bench 利用模型上下文协议 (MCP),将 28 台 MCP 服务器与 250 种真实工具相结合,从而克服了这一难题。
它复制了金融、科学计算、旅行规划和学术搜索等不同领域的现实任务,并评估了代理能否正确发现工具、理解依赖关系和构建复杂的工作流程。
该基准为系统地测试工具模式理解、长期规划、信息理由陈述和跨领域协调等能力提供了一个框架,并通过在 20 个高级 LLM 上进行大规模实验,揭示了仍然存在的挑战。
建议的方法
MCP-Bench 拟议方法的独特之处在于,它在再现现实工具使用场景的同时,还能测量 LLM 代理的多维能力。
首先,收集通过 MCP 服务器提供的多组工具,并分析其输入输出依赖关系。
然后,根据依赖关系合成自然语言任务,并进一步将其转换为省略明确工具名称和程序的 “模糊描述”,以测试代理根据上下文推断适当工具的能力。
评估以双层结构进行。
首先,基于规则的评估衡量工具名称的适当性、模式合规性、执行成功率和依赖性合规性。
其次,使用 LLM 作为考官,对任务完成情况、信息的合理性、工具选择的适当性以及规划的一致性和效率进行评分。
这种设计可以对长期规划和跨领域协调技能进行严格评估,而传统基准无法衡量这些技能。
实验
作者使用 MCP-Bench 评估了 20 个高级 LLM。
实验在单服务器和多服务器环境下进行,涵盖 104 个不同的复杂任务。
结果表明,功能强大的模型集(如 GPT-5、o3、gpt-oss-120b)在模式理解和工具命名准确性方面的准确率接近 100%,但在长期规划、依赖关系识别和并行处理效率等高阶能力方面存在显著差异。
特别是,小规模模型在单服务器环境中取得了一定的成功,但在转到多服务器环境时得分明显下降,而且在维护依赖关系的能力方面也表现出了弱点。
另一方面,顶级模型在跨域和长期工作流中保持了相对稳定的性能。
这些结果表明,虽然仅在工具调用准确性方面的差距正在缩小,但战略推理和规划才是当前 LLM 的优势所在。