基于智能体的上下文工程:让大模型通过“不断升级攻略本”来实现自我进化
- 1. 基本概念
- 1.1. 上下文适应的大语言模型
- 1.1.1. 模型权重
- 1.1.2. 上下文适应
- 1.2. 智能体上下文工程
1. 基本概念
1.1. 上下文适应的大语言模型
大语言模型(LLM)的应用,比如智能体( 能不能像人一样连续干活。比如连续调用好几个工具,帮用户去网站上订机票、改签、退款);特定领域推理(是不是行业专家。比如给出非常硬核的金融财报分析题、法律条文漏洞诊断题)。
正越来越多地依赖上下文适应而不是更新模型权重。
1.1.1. 模型权重
大模型刚被设计出来的时候,所有的权重都是随机生成的乱码。给模型看全互联网的文章(喂数据),让模型猜下一个字是什么(做预测),系统会告诉模型预测结果的情况(计算误差),系统根据这个误差调整权重(反向传播),这个过程重复几万亿次后,所有的权重数字终于达到了平衡和完美的境界。
- 模型权重就像是 AI 的“长期记忆”和“底层智商”。更新权重(即预训练或微调 Fine-tuning)意味着要用海量数据重新训练模型。
- 彭博社(Bloomberg)曾用海量金融文本微调出 BloombergGPT。更新权重后,模型一看到金融术语,其内部神经元的激活方式就会自动切换到“金融专家模式”,对专业术语的理解精准度远超通用模型。
1.1.2. 上下文适应
上下文适应(Context Adaptation)不改变 AI 的大脑结构,只通过精妙地调整你发给 AI 的“提示词(Prompt)和背景资料”,让它能瞬间完美适应当前的新任务。具体通过指令、策略或证据来修改输入
- 指令:明确告诉 AI 它现在是谁、要遵守什么纪律、输出什么格式(原本的输入: “帮我分析一下这段话”;修改后的输入: “你现在是一个精明的金融分析师(角色)。请分析以下文本,并只输出支持和反对的两个核心观点,总字数不超过100字(纪律和格式)。”)
- 策略:传授给 AI 一套“思考和解决问题的具体步骤”,教它怎么聪明地思考。(原本的输入: “这道数学题怎么做?3x + 5 = 14”;修改后的输入(加了策略): “这道数学题怎么做?请采用‘思维链(Chain of Thought)’策略:先写出已知条件,然后写下每一步移项和计算的过程,最后写出检查结果。” (这样能大幅降低 AI 算错的概率))
- 证据:喂给 AI 最精准、最实时的“外部参考资料”或“小抄”,不让它瞎编。(原本的输入: “某某公司昨天的股票为什么大跌?”(AI 的权重知识是落后的,不知道昨天发生的事,直接问它,它只能胡编乱造);修改后的输入(加了证据): “【参考新闻:昨日某某公司因为财报不及预期,导致股价闪崩10%】(这就是证据)。结合上述新闻,请回答:该公司昨天的股票为什么大跌?”)
以前大家让 AI 处理长期任务时,为了不让提示词超长,就会让 AI 不断地去“总结和重写”过去的经历。这种做法虽然看起来让提示词变得干净、好用了,但其实是在“饮鸩止渴”
- AI 会因为追求简短而丢掉专业细节(简短偏见)
- 并且在反复改写中把重要的记忆越传越走样,最后彻底忘精光(上下文塌陷)。
1.2. 智能体上下文工程
智能体上下文工程(Agentic Context Engineering)
ACE的基本思路:将上下文视为不断演进的“战术手册”(Playbooks),通过生成、反思和策展(Curation)的模块化流程,来积累、精炼并组织策略。
- ACE 框架把 AI 的提示词变成了一本“活的攻略本(Playbook)”。AI 系统每做一次任务,就会启动一个流水线:第一步派兵去打仗(生成),第二步复盘找错题(反思),第三步精细化修改攻略本(策展)。通过这种模块化的接力赛,AI 就能在不修改脑部权重的前提下,让自己的“攻略本”越来越厚实、组织得越来越有条理,实现真正低开销的“自我进化”。
- 生成(积累策略):读取现有的战术手册,去解决现实中的复杂问题(比如去金融市场分析股票,或者在智能体里调用 API 帮用户订机票);它在干活的过程中,会产生大量的“运行痕迹(Execution Traces)”,包括它说错的话、撞过的墙、成功执行的步骤。这些就是最原始的经验积累。
- 反思( 精炼策略):它是“严厉的教练”和“质检员”。它专门盯着“生成模块”留下的运行痕迹和环境给出的真实反馈(比如报错信息、失败结局)。像写错题本一样,精炼出本质原因。例如:“原策略在遇到 A 情况时会死循环,建议增加一条规则:遇到 A 立即切换到 B 路径。”它把冗长的失败过程,提炼成了高纯度的“教训”。
- 策展(组织策略):最核心的“总编辑”和“档案管理员”。对提示词(Prompt)进行精细化的结构管理。收到反思模块递交的“教训”后,绝不进行盲目的全盘重写,它会进行结构化的增量更新(Delta Updates);把新策略分门别类放到对应的标签下,检查新规矩和老规矩有没有冲突?如果有重复的,就合并;如果有被证明是错误的旧规矩,就无情剔除(这就是精炼与组织)。
ACE 的优势:通过结构化的增量更新来防止上下文塌陷,从而保留详细知识,并能随长上下文模型进行扩展。
- 结构化:提示词里不是乱糟糟的一团无序文字,而是像数据库或代码一样,有着严格的标签和分类。战术手册(Playbook)被划分成了清晰的模块,当 AI 有了新发现,它知道该把这个发现精准地归类到哪个标签下面,就像把文件放进对应的文件夹里。
- 增量更新:当 AI 在执行任务中获得了新经验,策展器会计算出这次新体验带来的“差量(Delta)”。它只把这几句新话“追加”到结构化手册的末尾,或者定向修改某一条旧规则。
- 随长上下文模型进行扩展:能够完美匹配那些能读几十万字的大模型;随着模型能装下的字数越来越多,任务越来越复杂,这本攻略本可以越挂越长,这套方法发挥出的威力和效果就会成倍放大,而不会因为字数变长而“卡死”或“变笨”
应用场景:在智能体和特定领域的基准测试中,ACE 能够同时对离线(如系统提示词)和在线(如智能体记忆)的上下文进行优化,即ACE的“演进攻略本(Playbook)”机制,既能在任务开始前用,也能在任务进行中用
- 离线优化:在正式上岗前(离线状态),ACE 会让 AI 先拿一小批模拟数据进行“生成、反思、策展”的闭门演练。经过几轮自我迭代,AI 最终提炼出一套完美的系统提示词。
- 在线优化:活学活用,随着任务越做越长,AI 在线记忆里的错题本就越记越厚、越做越对。比如AI 正拿着攻略在网上帮用户订机票。突然,航空公司网站报错,ACE 的在线机制会立刻在现场进行反思,把这条新经验动态地加进当前的‘在线记忆’里。
它既能在上岗前把通用的“员工手册(系统提示词/离线)”准备得妥妥当当,又能在工作现场随时更新自己的“临时备忘录(智能体记忆/在线)”
实际效果:显著降低了适应延迟和运行(Rollout)成本。值得注意的是,ACE 无需标签监督,而是通过利用自然执行反馈即可进行有效适应。
- 在 AppWorld 排行榜上,尽管 ACE 使用的是较小的开源模型,但其整体平均得分已追平排名第一的生产级智能体,
- 并在难度更高的测试挑战集(Test-Challenge Split)上实现了超越。
- 这些结果表明,全面且持续演进的上下文能够以低开销实现可扩展、高效且自改进的 LLM 系统。