news 2026/5/20 22:25:45

(一) Harness-1. 基于智能体的上下文工程:让大模型通过“不断升级攻略本”来实现自我进化(ACE)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(一) Harness-1. 基于智能体的上下文工程:让大模型通过“不断升级攻略本”来实现自我进化(ACE)

基于智能体的上下文工程:让大模型通过“不断升级攻略本”来实现自我进化

  • 1. 基本概念
    • 1.1. 上下文适应的大语言模型
      • 1.1.1. 模型权重
      • 1.1.2. 上下文适应
    • 1.2. 智能体上下文工程

1. 基本概念

1.1. 上下文适应的大语言模型

大语言模型(LLM)的应用,比如智能体( 能不能像人一样连续干活。比如连续调用好几个工具,帮用户去网站上订机票、改签、退款);特定领域推理(是不是行业专家。比如给出非常硬核的金融财报分析题、法律条文漏洞诊断题)。

正越来越多地依赖上下文适应而不是更新模型权重。

1.1.1. 模型权重

大模型刚被设计出来的时候,所有的权重都是随机生成的乱码。给模型看全互联网的文章(喂数据),让模型猜下一个字是什么(做预测),系统会告诉模型预测结果的情况(计算误差),系统根据这个误差调整权重(反向传播),这个过程重复几万亿次后,所有的权重数字终于达到了平衡和完美的境界。

  • 模型权重就像是 AI 的“长期记忆”和“底层智商”。更新权重(即预训练或微调 Fine-tuning)意味着要用海量数据重新训练模型。
  • 彭博社(Bloomberg)曾用海量金融文本微调出 BloombergGPT。更新权重后,模型一看到金融术语,其内部神经元的激活方式就会自动切换到“金融专家模式”,对专业术语的理解精准度远超通用模型。

1.1.2. 上下文适应

上下文适应(Context Adaptation)不改变 AI 的大脑结构,只通过精妙地调整你发给 AI 的“提示词(Prompt)和背景资料”,让它能瞬间完美适应当前的新任务。具体通过指令、策略或证据来修改输入

  • 指令:明确告诉 AI 它现在是谁、要遵守什么纪律、输出什么格式(原本的输入: “帮我分析一下这段话”;修改后的输入: “你现在是一个精明的金融分析师(角色)。请分析以下文本,并只输出支持和反对的两个核心观点,总字数不超过100字(纪律和格式)。”)
  • 策略:传授给 AI 一套“思考和解决问题的具体步骤”,教它怎么聪明地思考。(原本的输入: “这道数学题怎么做?3x + 5 = 14”;修改后的输入(加了策略): “这道数学题怎么做?请采用‘思维链(Chain of Thought)’策略:先写出已知条件,然后写下每一步移项和计算的过程,最后写出检查结果。” (这样能大幅降低 AI 算错的概率))
  • 证据:喂给 AI 最精准、最实时的“外部参考资料”或“小抄”,不让它瞎编。(原本的输入: “某某公司昨天的股票为什么大跌?”(AI 的权重知识是落后的,不知道昨天发生的事,直接问它,它只能胡编乱造);修改后的输入(加了证据): “【参考新闻:昨日某某公司因为财报不及预期,导致股价闪崩10%】(这就是证据)。结合上述新闻,请回答:该公司昨天的股票为什么大跌?”)

以前大家让 AI 处理长期任务时,为了不让提示词超长,就会让 AI 不断地去“总结和重写”过去的经历。这种做法虽然看起来让提示词变得干净、好用了,但其实是在“饮鸩止渴”

  • AI 会因为追求简短而丢掉专业细节(简短偏见)
  • 并且在反复改写中把重要的记忆越传越走样,最后彻底忘精光(上下文塌陷)。

1.2. 智能体上下文工程

智能体上下文工程(Agentic Context Engineering)

ACE的基本思路:将上下文视为不断演进的“战术手册”(Playbooks),通过生成、反思和策展(Curation)的模块化流程,来积累、精炼并组织策略。

  • ACE 框架把 AI 的提示词变成了一本“活的攻略本(Playbook)”。AI 系统每做一次任务,就会启动一个流水线:第一步派兵去打仗(生成),第二步复盘找错题(反思),第三步精细化修改攻略本(策展)。通过这种模块化的接力赛,AI 就能在不修改脑部权重的前提下,让自己的“攻略本”越来越厚实、组织得越来越有条理,实现真正低开销的“自我进化”。
  • 生成(积累策略):读取现有的战术手册,去解决现实中的复杂问题(比如去金融市场分析股票,或者在智能体里调用 API 帮用户订机票);它在干活的过程中,会产生大量的“运行痕迹(Execution Traces)”,包括它说错的话、撞过的墙、成功执行的步骤。这些就是最原始的经验积累。
  • 反思( 精炼策略):它是“严厉的教练”和“质检员”。它专门盯着“生成模块”留下的运行痕迹和环境给出的真实反馈(比如报错信息、失败结局)。像写错题本一样,精炼出本质原因。例如:“原策略在遇到 A 情况时会死循环,建议增加一条规则:遇到 A 立即切换到 B 路径。”它把冗长的失败过程,提炼成了高纯度的“教训”。
  • 策展(组织策略):最核心的“总编辑”和“档案管理员”。对提示词(Prompt)进行精细化的结构管理。收到反思模块递交的“教训”后,绝不进行盲目的全盘重写,它会进行结构化的增量更新(Delta Updates);把新策略分门别类放到对应的标签下,检查新规矩和老规矩有没有冲突?如果有重复的,就合并;如果有被证明是错误的旧规矩,就无情剔除(这就是精炼与组织)。

ACE 的优势:通过结构化的增量更新来防止上下文塌陷,从而保留详细知识,并能随长上下文模型进行扩展。

  • 结构化:提示词里不是乱糟糟的一团无序文字,而是像数据库或代码一样,有着严格的标签和分类。战术手册(Playbook)被划分成了清晰的模块,当 AI 有了新发现,它知道该把这个发现精准地归类到哪个标签下面,就像把文件放进对应的文件夹里。
  • 增量更新:当 AI 在执行任务中获得了新经验,策展器会计算出这次新体验带来的“差量(Delta)”。它只把这几句新话“追加”到结构化手册的末尾,或者定向修改某一条旧规则。
  • 随长上下文模型进行扩展:能够完美匹配那些能读几十万字的大模型;随着模型能装下的字数越来越多,任务越来越复杂,这本攻略本可以越挂越长,这套方法发挥出的威力和效果就会成倍放大,而不会因为字数变长而“卡死”或“变笨”

应用场景:在智能体和特定领域的基准测试中,ACE 能够同时对离线(如系统提示词)和在线(如智能体记忆)的上下文进行优化,即ACE的“演进攻略本(Playbook)”机制,既能在任务开始前用,也能在任务进行中用

  • 离线优化:在正式上岗前(离线状态),ACE 会让 AI 先拿一小批模拟数据进行“生成、反思、策展”的闭门演练。经过几轮自我迭代,AI 最终提炼出一套完美的系统提示词。
  • 在线优化:活学活用,随着任务越做越长,AI 在线记忆里的错题本就越记越厚、越做越对。比如AI 正拿着攻略在网上帮用户订机票。突然,航空公司网站报错,ACE 的在线机制会立刻在现场进行反思,把这条新经验动态地加进当前的‘在线记忆’里。

它既能在上岗前把通用的“员工手册(系统提示词/离线)”准备得妥妥当当,又能在工作现场随时更新自己的“临时备忘录(智能体记忆/在线)”


实际效果:显著降低了适应延迟和运行(Rollout)成本。值得注意的是,ACE 无需标签监督,而是通过利用自然执行反馈即可进行有效适应。

  • 在 AppWorld 排行榜上,尽管 ACE 使用的是较小的开源模型,但其整体平均得分已追平排名第一的生产级智能体,
  • 并在难度更高的测试挑战集(Test-Challenge Split)上实现了超越。
  • 这些结果表明,全面且持续演进的上下文能够以低开销实现可扩展、高效且自改进的 LLM 系统。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 22:25:44

彻底清理Windows驱动垃圾:Driver Store Explorer终极清理指南

彻底清理Windows驱动垃圾:Driver Store Explorer终极清理指南 【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否发现Windows系统盘空间不断缩小,却找不到罪魁…

作者头像 李华
网站建设 2026/5/20 22:24:59

【头歌Educoder】国防科大 模板与 STL

第1关&#xff1a;初识模板函数任务目的本关目的&#xff1a;编写你的第一个模板函数。编程要求本题的要求为&#xff1a;编写模板函数 template <typename T, int n> int getIndex (T a[], T x)返回长度为 n 的数组 a 中 x 第一个出现的位置&#xff08;下标&#xff09…

作者头像 李华
网站建设 2026/5/20 22:22:17

应对2026AIGC检测算法:5大热门降AI工具实测与免费提示词秘籍

为了找到真正靠谱的解决方案&#xff0c;我过去测试了市面上大部分号称能降低ai率的方法。从一分钱不花的模型指令&#xff0c;到各种付费的专业降ai率工具&#xff0c;用手头的文本做了几十次实操对比。说心里话&#xff0c;里面套路确实不少&#xff0c;有些方法用完后语句颠…

作者头像 李华
网站建设 2026/5/20 22:22:13

从零啃透机器学习:用“挑西瓜”讲透机器学习第一章

&#x1f4d6;《机器学习》第1章通俗解读 | 机器学习到底是什么&#xff1f; 用最接地气的方式&#xff0c;带你搞懂“西瓜书”第一章 1. 一句话说清&#xff1a;机器学习是干啥的&#xff1f; 机器学习 ≈ 让电脑从经验中学习&#xff0c;自己变聪明 你小时候吃过很多西瓜&a…

作者头像 李华
网站建设 2026/5/20 22:22:09

AI智能体定制项目 实用全能毕业项目方案

# 毕设实战&#xff5c;AI智能体定制项目 实用全能毕业项目方案 最近不少学弟学妹来问我&#xff0c;毕设想做智能体相关的方向&#xff0c;但又不想花几个月从零折腾代码、训练模型&#xff0c;有没有更省力的办法。其实现在成熟的智能体框架已经很完善了&#xff0c;直接组合…

作者头像 李华
网站建设 2026/5/20 22:22:04

告别COM口!用CH9329芯片实现免驱USB键鼠模拟(附Python脚本)

免驱键鼠模拟实战&#xff1a;CH9329芯片的Python自动化应用指南 当我们需要让单片机与电脑交互时&#xff0c;传统方案往往依赖COM口或专用驱动&#xff0c;这不仅增加开发复杂度&#xff0c;还面临系统兼容性问题。CH9329芯片的出现&#xff0c;为开发者提供了一种优雅的解决…

作者头像 李华