(一) Harness-1. 基于智能体的上下文工程：让大模型通过“不断升级攻略本”来实现自我进化（ACE）-平芜编程栈

基于智能体的上下文工程：让大模型通过“不断升级攻略本”来实现自我进化

1. 基本概念
- 1.1. 上下文适应的大语言模型
- - 1.1.1. 模型权重
  - 1.1.2. 上下文适应
- 1.2. 智能体上下文工程

1. 基本概念

1.1. 上下文适应的大语言模型

大语言模型（LLM）的应用，比如智能体（能不能像人一样连续干活。比如连续调用好几个工具，帮用户去网站上订机票、改签、退款）；特定领域推理（是不是行业专家。比如给出非常硬核的金融财报分析题、法律条文漏洞诊断题）。

正越来越多地依赖上下文适应而不是更新模型权重。

1.1.1. 模型权重

大模型刚被设计出来的时候，所有的权重都是随机生成的乱码。给模型看全互联网的文章（喂数据），让模型猜下一个字是什么（做预测），系统会告诉模型预测结果的情况（计算误差），系统根据这个误差调整权重（反向传播），这个过程重复几万亿次后，所有的权重数字终于达到了平衡和完美的境界。

模型权重就像是 AI 的“长期记忆”和“底层智商”。更新权重（即预训练或微调 Fine-tuning）意味着要用海量数据重新训练模型。
彭博社（Bloomberg）曾用海量金融文本微调出 BloombergGPT。更新权重后，模型一看到金融术语，其内部神经元的激活方式就会自动切换到“金融专家模式”，对专业术语的理解精准度远超通用模型。

1.1.2. 上下文适应

上下文适应（Context Adaptation）不改变 AI 的大脑结构，只通过精妙地调整你发给 AI 的“提示词（Prompt）和背景资料”，让它能瞬间完美适应当前的新任务。具体通过指令、策略或证据来修改输入

指令：明确告诉 AI 它现在是谁、要遵守什么纪律、输出什么格式（原本的输入： “帮我分析一下这段话”；修改后的输入： “你现在是一个精明的金融分析师（角色）。请分析以下文本，并只输出支持和反对的两个核心观点，总字数不超过100字（纪律和格式）。”）
策略：传授给 AI 一套“思考和解决问题的具体步骤”，教它怎么聪明地思考。（原本的输入： “这道数学题怎么做？3x + 5 = 14”；修改后的输入（加了策略）： “这道数学题怎么做？请采用‘思维链（Chain of Thought）’策略：先写出已知条件，然后写下每一步移项和计算的过程，最后写出检查结果。” （这样能大幅降低 AI 算错的概率））
证据：喂给 AI 最精准、最实时的“外部参考资料”或“小抄”，不让它瞎编。（原本的输入： “某某公司昨天的股票为什么大跌？”（AI 的权重知识是落后的，不知道昨天发生的事，直接问它，它只能胡编乱造）；修改后的输入（加了证据）： “【参考新闻：昨日某某公司因为财报不及预期，导致股价闪崩10%】（这就是证据）。结合上述新闻，请回答：该公司昨天的股票为什么大跌？”）

以前大家让 AI 处理长期任务时，为了不让提示词超长，就会让 AI 不断地去“总结和重写”过去的经历。这种做法虽然看起来让提示词变得干净、好用了，但其实是在“饮鸩止渴”

AI 会因为追求简短而丢掉专业细节（简短偏见）
并且在反复改写中把重要的记忆越传越走样，最后彻底忘精光（上下文塌陷）。

1.2. 智能体上下文工程

智能体上下文工程（Agentic Context Engineering）

ACE的基本思路：将上下文视为不断演进的“战术手册”（Playbooks），通过生成、反思和策展（Curation）的模块化流程，来积累、精炼并组织策略。

ACE 框架把 AI 的提示词变成了一本“活的攻略本（Playbook）”。AI 系统每做一次任务，就会启动一个流水线：第一步派兵去打仗（生成），第二步复盘找错题（反思），第三步精细化修改攻略本（策展）。通过这种模块化的接力赛，AI 就能在不修改脑部权重的前提下，让自己的“攻略本”越来越厚实、组织得越来越有条理，实现真正低开销的“自我进化”。
生成（积累策略）：读取现有的战术手册，去解决现实中的复杂问题（比如去金融市场分析股票，或者在智能体里调用 API 帮用户订机票）；它在干活的过程中，会产生大量的“运行痕迹（Execution Traces）”，包括它说错的话、撞过的墙、成功执行的步骤。这些就是最原始的经验积累。
反思（精炼策略）：它是“严厉的教练”和“质检员”。它专门盯着“生成模块”留下的运行痕迹和环境给出的真实反馈（比如报错信息、失败结局）。像写错题本一样，精炼出本质原因。例如：“原策略在遇到 A 情况时会死循环，建议增加一条规则：遇到 A 立即切换到 B 路径。”它把冗长的失败过程，提炼成了高纯度的“教训”。
策展（组织策略）：最核心的“总编辑”和“档案管理员”。对提示词（Prompt）进行精细化的结构管理。收到反思模块递交的“教训”后，绝不进行盲目的全盘重写，它会进行结构化的增量更新（Delta Updates）；把新策略分门别类放到对应的标签下，检查新规矩和老规矩有没有冲突？如果有重复的，就合并；如果有被证明是错误的旧规矩，就无情剔除（这就是精炼与组织）。

ACE 的优势：通过结构化的增量更新来防止上下文塌陷，从而保留详细知识，并能随长上下文模型进行扩展。

结构化：提示词里不是乱糟糟的一团无序文字，而是像数据库或代码一样，有着严格的标签和分类。战术手册（Playbook）被划分成了清晰的模块，当 AI 有了新发现，它知道该把这个发现精准地归类到哪个标签下面，就像把文件放进对应的文件夹里。
增量更新：当 AI 在执行任务中获得了新经验，策展器会计算出这次新体验带来的“差量（Delta）”。它只把这几句新话“追加”到结构化手册的末尾，或者定向修改某一条旧规则。
随长上下文模型进行扩展：能够完美匹配那些能读几十万字的大模型；随着模型能装下的字数越来越多，任务越来越复杂，这本攻略本可以越挂越长，这套方法发挥出的威力和效果就会成倍放大，而不会因为字数变长而“卡死”或“变笨”

应用场景：在智能体和特定领域的基准测试中，ACE 能够同时对离线（如系统提示词）和在线（如智能体记忆）的上下文进行优化，即ACE的“演进攻略本（Playbook）”机制，既能在任务开始前用，也能在任务进行中用

离线优化：在正式上岗前（离线状态），ACE 会让 AI 先拿一小批模拟数据进行“生成、反思、策展”的闭门演练。经过几轮自我迭代，AI 最终提炼出一套完美的系统提示词。
在线优化：活学活用，随着任务越做越长，AI 在线记忆里的错题本就越记越厚、越做越对。比如AI 正拿着攻略在网上帮用户订机票。突然，航空公司网站报错，ACE 的在线机制会立刻在现场进行反思，把这条新经验动态地加进当前的‘在线记忆’里。

它既能在上岗前把通用的“员工手册（系统提示词/离线）”准备得妥妥当当，又能在工作现场随时更新自己的“临时备忘录（智能体记忆/在线）”

实际效果：显著降低了适应延迟和运行（Rollout）成本。值得注意的是，ACE 无需标签监督，而是通过利用自然执行反馈即可进行有效适应。