news 2026/5/13 18:02:33

北大:Agent Skills被结构化图谱讲清楚了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
北大:Agent Skills被结构化图谱讲清楚了

当你在Agent平台上安装一个第三方技能时,你真的知道它会做什么吗?

现在的Agent系统里,Skill通常是一份SKILL.md文件——本质上就是一篇长文档,里面混杂着调用方式、执行步骤、工具调用和资源访问。对人类来说还能凑合读,但对机器来说,要在几千个技能里找到对的那个,或者判断一个技能有没有安全风险,就得从大段自然语言里""关键信息。

它怎么做

SSL的思路很清晰:把一份技能文档拆成三层,每层各管各的信号。

调度层(Scheduling)描述"这个技能是干什么的"——意图、输入输出、标签、依赖、控制流特征。你可以把它理解成技能的"名片",用于快速匹配和路由。

结构层(Structural)把技能的执行过程拆成有序的场景阶段——准备、获取、推理、行动、验证、恢复。每一阶段有自己的目标、输入输出和退出条件。这层让技能的执行流程变得可视化。

逻辑层(Logical)深入到最细粒度的原子操作:读了什么文件、调了什么工具、写了什么数据、碰了哪些资源。每个操作都有类型化的动作原语(READWRITECALL_TOOLTRANSFER等)和资源边界(MEMORYLOCAL_FSNETWORKCREDENTIALS等)。

三层之间通过包含关系和入口指针连接,形成一个从粗到细的分层图谱。关键设计原则是:所有字段必须来自原始文档,不允许推断或编造信息。这是一种保守但可靠的做法——SSL只呈现文档里能看到的,不猜测看不到的。

论文还提供了一个基于LLM的归一化器,可以把现有的SKILL.md文件自动转换成SSL结构,包括四步流水线:提取技能级记录、分解场景、展开逻辑步骤、验证图的完整性。

证据在哪

实验在两个任务上验证了SSL的效果。

技能发现方面,研究团队构建了一个包含6,184个公开技能的语料库和403个任务导向的查询。最好的SSL增强输入(Desc + SSL-Rich)将检索MRR从0.573提升到0.707,提升幅度约**23%**。值得注意的是,简洁的结构化摘要比直接嵌入完整原文档效果更好——这说明结构化不是"给更多信息",而是"给对的信息"。

风险评估方面,500个技能在六个风险维度上打分(数据外泄、破坏性行为、提权、隐蔽执行、资源滥用、凭证访问)。SKILL.md加SSL的组合视图将宏观F1从0.744提升到0.787。SSL在破坏性行为、凭证访问、数据外泄这些和具体操作、资源紧密相关的维度上优势最明显;但在提权和资源滥用这类需要更广泛上下文判断的维度上,完整原文仍有竞争力。

一个关键结论是:SSL不应该替代原始文档,而是应该和原始文档配合使用。结构指向相关证据,文本提供解释上下文,两者缺一不可。

这意味着什么

这篇论文的真正价值不在于提出了多复杂的模型,而在于指出了一个被忽视的基础设施问题:Agent系统需要一个共享的技能清单层

没有这样一层表示,注册表、路由器、策略检查器和安全审查员都只能各自从同一份SKILL.md里反复提取相似的事实。SSL把这些事实固化下来,让不同下游任务各取所需:注册表索引调用信号,检查器暴露阶段结构,审查员查看逻辑级操作和资源使用证据。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 18:01:38

AI Agent沙箱环境部署指南:从Docker容器化到生产级运维

1. 项目概述:构建一个生产级的AI Agent沙箱环境最近在折腾一个挺有意思的项目,叫NemoClaw OpenClaw Sandbox。简单来说,它是一套完整的、开箱即用的部署方案,能帮你在自己的云服务器(VPS)上,快速…

作者头像 李华
网站建设 2026/5/13 18:00:19

OmenSuperHub:彻底解放惠普OMEN游戏本性能的终极开源方案

OmenSuperHub:彻底解放惠普OMEN游戏本性能的终极开源方案 【免费下载链接】OmenSuperHub 使用 WMI BIOS控制性能和风扇速度,自动解除DB功耗限制。 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 你是否厌倦了官方软件的臃肿体验&…

作者头像 李华
网站建设 2026/5/13 18:00:17

终极小说下载器指南:如何一键永久保存100+网站的小说内容

终极小说下载器指南:如何一键永久保存100网站的小说内容 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在数字阅读时代,你是否曾经历过这样的困扰&#xff1…

作者头像 李华
网站建设 2026/5/13 17:57:14

从Landsat 8数据到地表温度:劈窗算法实战解析

1. 从Landsat 8数据到地表温度:劈窗算法实战解析 地表温度是研究城市热岛效应、农业干旱监测、气候变化等领域的重要参数。Landsat 8卫星搭载的热红外传感器TIRS(Thermal Infrared Sensor)提供了两个热红外波段(B10和B11&#xff…

作者头像 李华