news 2026/6/13 0:18:28

从结果评测到过程评测:滴普科技发起并联合多所高校共建AgentOS OpenLab 智能体评测开放实验室

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从结果评测到过程评测:滴普科技发起并联合多所高校共建AgentOS OpenLab 智能体评测开放实验室

2026 年 6 月 12 日,AgentOS OpenLab 智能体评测开放实验室在深圳成立。实验室由滴普科技发起,南方科技大学 AgentOS 项目组牵头研究与运营,同时联合北京邮电大学、英国布里斯托大学、南开大学、上海交通大学、天津大学、香港中文大学等多所海内外高校作为创始共建团队,聚焦智能体过程级评测基础设施建设,致力于打造开放、中立、可复现的开源社区。

随着大模型应用从内容生成逐步走向任务执行,智能体在规划、工具调用、环境交互和自我修正等方面的能力,正在成为评估其实用性的重要维度。仅以最终结果是否正确作为判断依据,已难以完整反映智能体在复杂任务中的真实表现。尤其在科研和企业场景中,若任务理解、执行路径或差错修正机制存在偏差,即使阶段性得到“正确结果”,也可能带来复现困难和潜在风险。因此,将执行过程纳入评测,已成为提升智能体可信度的重要方向。

基于这一背景,AgentOS OpenLab 围绕智能体执行全过程构建评测闭环,覆盖执行轨迹记录、关键检查点切分、评测规则与测试任务生成、测试执行、评分报告输出以及轨迹记忆沉淀等环节。与更侧重结果判断的传统方式相比,OpenLab 更强调基于 Rubric 的过程级验证,希望通过更明确的评价标准、过程证据和可复现实验,提高 智能体评测的透明度和可信度。

在共建机制上,AgentOS OpenLab 采取多主体协同模式。研究与运营由南方科技大学牵头,滴普科技作为发起方、赞助方和资源支持方参与建设,Benchmark、评测任务、轨迹库、工具及治理机制则由创始共建团队共同推进。该机制旨在避免由单一主体定义标准,增强评测体系的开放性和中立性。

成立仪式期间,与会嘉宾围绕过程级评测的必要性、复杂长链路任务的评测标准,以及开放中立机制对可信评测的重要意义等议题展开交流。

按照规划,6 月底,OpenLab 将完成 MVP Benchmark 与首批共建任务的跑通;7 月,创始共建团队将围绕实际使用情况反馈问题与改进建议;9 月底,计划发布开源工具、评测结果、数据集及阶段性研究成果;年底,将推动 Agent Benchmark Challenge 与年度发布活动。后续,实验室还将陆续开放 MVP Benchmark、评测工具、轨迹库、Leaderboard 与贡献指南,在GitHub与HuggingFace 平台,面向研究者、开发者、学生及企业技术团队开放共建。

AgentOS OpenLab 的成立,为产学研协同推进智能体过程级评测提供了一个开放平台。对滴普科技而言,参与发起并支持 OpenLab,是其推动开放技术社区建设、加强产学研协同的一项具体举措。未来滴普科技将持续深化产学研协同,将过程级评测的最佳实践转化为产业生产力,加速推动可信、可靠、可控的智能体在企业场景中真正落地。

  • GitHub https://github.com/agentos-openlab
  • HuggingFace https://huggingface.co/agentos-openlab
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 0:17:57

VSCode+Continue插件+Claude 3.5:AI开发效率翻倍,无需梯子直达全球大模型!

本文详细介绍了如何在Visual Studio Code中安装和配置Continue插件,并利用Claude 3.5模型进行AI开发。教程涵盖了插件安装、API密钥获取、模型配置、自定义设置等关键步骤,并提供了代码优化示例。通过该插件,开发者可高效利用AI助手提升编程效…

作者头像 李华
网站建设 2026/6/13 0:09:48

MC13242 ZigBee射频芯片:硬件集成与低功耗物联网开发实战

1. 项目概述:为什么MC13242是ZigBee开发的“硬核”选择在物联网和智能家居领域,ZigBee这个名字大家都不陌生。它就像无线世界里的“邻里协议”,设备之间能自组织成网,稳定又省电。但要把一个ZigBee节点从图纸变成产品,…

作者头像 李华
网站建设 2026/6/13 0:09:14

如何快速配置开源抢票神器:DamaiHelper终极自动化工具指南

如何快速配置开源抢票神器:DamaiHelper终极自动化工具指南 【免费下载链接】damaihelper 支持大麦网,淘票票、缤玩岛等多个平台,演唱会演出抢票脚本 项目地址: https://gitcode.com/gh_mirrors/dam/damaihelper DamaiHelper是一款功能…

作者头像 李华
网站建设 2026/6/13 0:09:14

FRα伴随诊断抗体如何指导ADC治疗精准用药?

一、FRα为何成为肿瘤精准治疗新靶点?FRα由FOLR1编码,是分子量38-40 kDa的细胞表面糖蛋白,最初作为叶酸结合蛋白被发现,1991年被克隆为肿瘤相关抗原。FRα对还原叶酸及叶酸有很高亲和力,通过胞吞作用吸收叶酸&#xf…

作者头像 李华
网站建设 2026/6/13 0:03:56

TVA视觉智能体工业落地进阶实战(三十四):TVA非标机器视觉光路调试手册|打光逻辑、光源选型、光路避反光、低成本布光全场景方案

摘要 工业视觉70%检测不稳定问题,根源不在算法,而在光路打光不合理:高光反光、阴影遮挡、纹理杂光、工件透光、环境散光干扰,导致算法特征提取失效。本文脱离理论光学公式,结合200非标现场落地经验,梳理TV…

作者头像 李华