智能体的尽头是Harness基建！上海交大深度解读Harness-平芜编程栈

似乎每天都有大模型问世，测试榜单不断刷新。

但把它们接入真实的业务流中，总有意想不到的崩溃与失控。

决定智能体落地成败的关键，已经从单纯榨取模型内部算力，彻底转移到了构建强大的外部认知基础设施上。

上海交通大学、中山大学、上海创新研究院、卡内基梅隆大学、OPPO的联合团队，深度拆解了智能体技术的核心演进逻辑，带你洞悉记忆、技能、协议与运行环境（Harness）如何将脆弱的概率生成，重塑为稳定可靠的工程生产力。

认知能力的结构性外移

认知科学家Donald A. Norman提出过一个深邃的概念，叫做认知制品（Cognitive Artifacts）。

外部工具的出现并没有改变人类原有的生理生理结构，它直接改变了任务本身的性质。人类文明的发展史，就是一部认知外化的历史。

文字将脆弱的生物记忆外化为物质记录，计算机器将繁重的算术劳动外化为可编程的指令。

大语言模型智能体同样在经历这一不可逆的历史进程。外部环境的介入，将困难的回忆任务转化为简单的识别任务，将充满随机性的即兴生成转化为结构化组合。

正如论文中的总览图所展现的，人类认知外化史与LLM智能体外化路径有着惊人的平行映射关系。能力正从隐藏的权重、有限的上下文，一路向外迁移到记忆、技能、协议与Harness之中。

智能体社区的研究重心经历了一条非常清晰的外移路线。早期阶段，知识、推理习惯和世界观全部压缩在模型的数十亿个参数中。这种能力在权重中的模式存在结构性短板，工程师极难进行局部事实的针对性更新，也无法为特定用户提供低成本的个性化定制。

随后焦点转移到了提示词设计和上下文窗口。开发者借助检索增强生成（RAG）和思维链（CoT）等技术，在运行时动态注入外部文档和指导。上下文窗口是极其有限的稀缺资源，随着每一次会话结束，所有累积的工作状态都会瞬间归零。

现阶段的工程重心，已经全面转移到了模型外部的持久化基础设施上。一个智能体在复杂业务中的可靠性，取决于外部的记忆库、工具注册表、协议定义、沙盒隔离机制以及审批循环。

在这种宏观视角的审视下，Harness稳稳占据了架构的中心位置。它像是一个统管一切的基座，记忆、技能和协议围绕其有序组织。

沙盒、可观测性、评估、审批和子智能体编排等运行时机制，负责把这三类独立的外化模块无缝对接到一起，形成一个真正可治理的系统。

记忆与技能的持久化封装

记忆系统本质上解决的是智能体在时间跨度上面临的连续性负担。没有外部记忆的模型，每一次API调用都等同于一次严重失忆后的重新启动。为了应对复杂的长周期任务，系统需要将状态信息细分为四个清晰的层次。

工作上下文是当前任务的实时中间状态，包括打开的文件、临时变量、部分完成的计划和执行检查点。

它支持智能体在任务被意外中断后，能够精准无误地从当前状态恢复。情景经验记录过去实际发生的运行轨迹，涵盖决策点、工具调用过程、失败教训和反思日志。这些真实的记录作为具体先例，帮助智能体避免在同一个坑里反复跌倒。

语义知识超越了单一事件的抽象规则，包含领域事实、通用启发式规则、项目规范和稳定的世界知识，通常以知识库形式存在。

个性化记忆专门记录特定用户或环境的稳定信息，涉及用户偏好、使用习惯和反复出现的约束条件。将其独立出来，能让智能体跨会话无缝适应用户，同时避免敏感数据污染全局的通用任务知识。

在工程实现上，记忆架构经历了从简单粗暴到精细化管理的演进。

单一上下文架构将所有历史记录直接塞入提示词，容量扩展性极差，模型在背负沉重历史包袱的同时还要消耗大量算力去解决当前步骤。

当前工业界最主流的模式是上下文结合检索存储，只在提示词中保留近期的工作状态，长周期的追踪记录存储在外部数据库并在需要时检索。

更为先进的分层记忆与编排架构开始引入操作系统的设计理念，区分冷热数据并在不同层级存储之间进行交换，同时引入显式的提取、巩固和遗忘机制。

最前沿的自适应记忆系统不再依赖固定规则，而是根据经验动态调整路由决策，例如通过强化学习持续更新检索策略。

审视记忆系统时必须高度警惕其隐蔽的故障模式。

当外部业务环境已经改变，检索出的记忆仍是旧版本时，陈旧失效的记忆会向模型提供完全扭曲的当前问题表征。为了节省存储空间而过度抽象的记忆，会丢失关键的操作细节，导致模型在关键决策点失去抓手。

一旦错误的执行记录或冲突的前提条件被写入持久化存储，记忆投毒会在未来的检索中持续污染模型的推理基座。

记忆系统解决了连续性问题，技能系统解决的则是执行稳定性的问题。

反复让模型在推理过程中重新发明工作流，必然导致关键步骤遗漏或工具使用的随机性。技能并不是一个简单的工具接口，它是一种高度可复用的专业知识封装。

一个完整的技能包含操作程序、决策启发式规则和规范约束。操作程序是任务的执行骨架，负责将复杂工作拆解为具体步骤、依赖关系以及明确的终止条件。

决策启发式规则专门处理分支和异常的经验法则，当工具报错或观察结果存在噪音时，技能内部编码的默认选择能有效降低模型的决策成本。

规范约束界定行为边界的安全护栏，规定前置的安全检查、过程中的权限阻断以及必须产生的验证证据。

技能真正在系统中跑起来需要一套精密的调度流水线。

规范化说明像开发文档一样声明技能的功能、适用范围和前置条件。系统依靠注册表和检索机制进行发现与匹配，精准筛选最合适的技能模块。

为了避免信息过载，系统采用渐进式披露的分层加载策略，最初只暴露名称和简短描述，确认适用后才加载详细执行指南。

技能业务逻辑必须进行执行绑定，连接到具体的底层工具或文件操作上产生实际影响。高级能力往往通过组合机制，由低级技能串行、并行或条件路由拼装而成。

优秀的技能系统自身具备强大的生长能力。

除了人类工程师直接提供的专家编写内容，系统还能从记忆系统存储的大量交互轨迹中提取经验蒸馏，将反复验证有效的工作模式固化为新技能。

智能体还能在沙盒中自主探索实现环境发现，或者将现有的多个技能模块直接打包进行组合生成。

交互协议与运行时环境治理

智能体在真实世界中不仅需要自我思考，更需要与异构工具、人类审核员以及其他智能体协同工作。

协议层解决的正是这种跨越边界的协作负担。没有明确的契约，模型每一次发起调用都像是在玩极高成本的猜谜游戏。

协议将模糊的自然语言推理强制转化为四个维度的确定性契约。

调用语法彻底消除格式猜测，规定了参数名称、数据类型和返回结构，模型只需按图索骥进行填空。

生命周期语义专门处理多步协同，明确合法的状态流转、交接机制以及任务判定标准。

权限与信任边界将商业安全管控落实到代码层面，把授权范围、数据流向限制转化为机器可执行的硬性检查。

发现元数据支持系统资源的动态探测，让智能体主动查询可用资源，彻底抛弃了将工具硬编码在提示词中的陈旧做法。

当前活跃的协议家族已经形成了清晰的生态分化。

智能体-工具协议如Anthropic提出的模型上下文协议（MCP），提供了一种标准化的方式让智能体跨越异构服务发现并调用工具，解耦了特定模型与特定工具的深度绑定。

智能体-智能体协议如A2A标准化了多智能体之间的能力发现、任务委派和流传输，成为构建大规模多智能体网络的基石。

智能体-用户协议专门处理执行状态呈现、UI结构输出以及流式事件渲染，让前端交互彻底告别了随意的文本拼接。

所有的外化认知模块必须依托一个统管一切的治理层才能发挥威力，这就是Harness工程的核心价值所在。Harness不是零散的零件集合，它是将认知模块编织成连贯行为的控制中枢。

一个成熟可靠的Harness架构必须在六个核心维度上进行精细化设计。

智能体循环与控制流构建了感知、检索、规划、行动、观察的时间主轴，并实施极其严格的边界控制，设置最大步数限制和单步成本上限以防止资源枯竭。

沙盒与执行隔离为智能体提供独立的文件系统快照和受限的网络访问，这既是保护物理环境的安全防线，也是为模型排除噪音干扰的认知边界。

人类监督与审批门控在真实业务中不可或缺。

系统需要在修改代码或转移资金等高危动作前设置物理拦截点，强制等待人类操作员的授权确认。

可观测性与结构化反馈是系统自进化的基础，Harness结构化地记录每一次模型调用和决策分支，满足人类安全审计需求并为模型微调提供高质量数据源泉。

配置、权限与策略编码将业务治理规则外化，按照用户、项目、组织三个层次叠加权限，让同一个底层模型在不同配置下展现出截然不同的行为边界。

上下文预算管理像操作系统的内存调度器一样运转，动态决定多少Token留给历史总结，多少留给接口描述，基于当前任务阶段进行实时优先级驱逐。

跨模块共生与演进前沿

孤立的外化模块无法缔造真正的智能，各个模块之间存在着紧密的相互强化与动态共生关系。

从记忆到技能的经验蒸馏，让海量成功的执行轨迹沉淀为结构化的可复用指导。

从技能到记忆的执行记录反哺，将每一次技能调用的遭遇写入外部状态，赋予系统基于历史事实进行自我纠错的底气。

技能中规划的复杂业务逻辑，必须接受协议层的严格校验与权限判定，才能从协议跃升为对物理世界的真实干预。

当系统面临多条交互路径抉择时，记忆系统提供的历史成功率和用户偏好数据，直接主导了智能体的策略路由选择。

随着认知外化逻辑向系统深水区迈进，智能体技术正在展现出五个极具颠覆性的前沿演进趋势。

向具身智能延伸的步伐正在加快。在机器人前沿领域，高参数量语言模型充当大脑负责任务分解和状态维持，底层的视觉-语言-动作模型（VLA）被降维成一个个外部技能模块充当小脑，专门处理低延迟的物理抓取和精细位移控制。

自进化Harness即将成为现实，未来的系统将摆脱人工调优的束缚，通过强化学习或程序合成技术，根据海量执行日志自动修复调度漏洞、动态调整检索粒度甚至重构整个执行管道。

系统复杂度的攀升迫使工程师进行收益与风险的深刻权衡。

外部结构越庞大认知开销就越高，过度检索极易引发信息淹没，庞杂的技能库会让模型在选项海中迷失全局目标。记忆投毒、恶意技能注入和协议伪造等安全威胁，正随着攻击面的扩大而变得异常棘手。

行业正不可避免地从私有脚手架迈向共享基础设施。

当多个智能体开始跨组织协作，记忆库、开源技能包和标准化协议将不再是单一系统的私有财产。

这种生态级别的学习扩散，将催生出远超以往的群体智能，同时也抛出了极其复杂的跨平台治理难题。

传统的基准测试体系面临彻底重构，仅仅衡量模型输出准确率已经毫无意义。

行业迫切需要建立全新的评估维度，专门测量外化架构的可维护性、上下文周转效率、故障恢复稳健性以及全链路的治理透明度。

打造稳定可靠的智能体需要严丝合缝的系统工程。

通过将记忆、技能和协议精准外化，并在严密的Harness中加以治理约束，技术先行者们正在为人工智能夯实一个具备自我进化能力的认知底座。

未来的产业博弈不再局限于模型参数层面的军备竞赛，更是构建和驾驭这种认知基础设施能力的全面较量。

参考资料：

https://arxiv.org/pdf/2604.08224

智能体的尽头是Harness基建！上海交大深度解读Harness

认知能力的结构性外移

记忆与技能的持久化封装

交互协议与运行时环境治理

跨模块共生与演进前沿

EMQX数据转发踩坑实录：为什么我的Webhook收不到数据？规则引擎SQL与Servlet参数解析全攻略

小学一到六年级语文_英语_数学作业出题布置网站源码支持生成PDF和打印

3步解锁缠论可视化：新手也能快速上手的完整指南

ADS8684/ADS8688驱动避坑指南：从SPI通信异常到通道配置的那些“坑”

三国天下归心吕布是谁三国天下归心吕布怎么玩

发散创新：基于策略模式的权限管理系统设计与实现在现代软件系统中

认知能力的结构性外移

记忆与技能的持久化封装

交互协议与运行时环境治理

跨模块共生与演进前沿

EMQX数据转发踩坑实录：为什么我的Webhook收不到数据？规则引擎SQL与Servlet参数解析全攻略

小学一到六年级语文_英语_数学作业出题布置网站源码 支持生成PDF和打印

3步解锁缠论可视化：新手也能快速上手的完整指南

ADS8684/ADS8688驱动避坑指南：从SPI通信异常到通道配置的那些“坑”

三国天下归心吕布是谁 三国天下归心吕布怎么玩

**发散创新：基于策略模式的权限管理系统设计与实现**在现代软件系统中

小学一到六年级语文_英语_数学作业出题布置网站源码支持生成PDF和打印

三国天下归心吕布是谁三国天下归心吕布怎么玩

发散创新：基于策略模式的权限管理系统设计与实现在现代软件系统中