news 2026/6/25 15:35:04

Context Engineering 深度解析:从 Prompt 工程到上下文系统设计的范式跃迁

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Context Engineering 深度解析:从 Prompt 工程到上下文系统设计的范式跃迁

Context Engineering 深度解析:从 Prompt 工程到上下文系统设计的范式跃迁

前言

  • 核心痛点:LLM 应用开发者普遍面临"模型能力够强但输出不稳定"的困境——同样的模型,不同人使用效果天差地别。根源不在模型本身,而在输入给模型的上下文质量
  • 适配人群:适合正在构建 LLM 应用、AI Agent 系统的中高级开发者与架构师
  • 收获能力:读完可掌握 Context Engineering 的完整理论体系、WSCI 四大核心策略、长时任务上下文管理方案,以及可直接落地的工程实践

目录

  • 一、技术背景与演进逻辑
  • 二、核心原理深度解析
  • 三、WSCI 四大核心策略详解
  • 四、Agent 场景下的上下文工程实践
  • 五、长时任务的上下文管理方案
  • 六、技术优缺点与适用场景
  • 七、实战落地
  • 八、全文总结
  • 系列说明
  • 专栏推荐
  • 参考资料

一、技术背景与演进逻辑

1.1 从 Prompt Engineering 到 Context Engineering

2023 至 2024 年,Prompt Engineering 是 LLM 应用开发的核心技能。开发者通过精心设计提示词来引导模型输出。然而,随着 AI Agent 的兴起——LLM 在循环中自主使用工具、跨越数百轮推理——仅靠写好一个 Prompt 已远远不够。

2025 年 6 月,Andrej Karpathy 在社交媒体上给出了精确定义:

Context Engineering 是"精心地用恰到好处的信息填充上下文窗口,以支撑模型下一步推理的精妙艺术与科学"。

这一概念迅速被 Anthropic、LangChain、Cognition 等头部 AI 公司采纳。Anthropic 在其工程博客中明确指出:

Context Engineering 是 Prompt Engineering 的自然演进。Prompt Engineering 关注如何写好指令,而 Context Engineering 关注在推理过程中如何策展和维护最优的 Token 集合。

1.2 为什么 Context Engineering 成为 2026 年 AI 工程核心

三个结构性因素推动了这一范式转变:

因素一:Agent 驱动的长时推理

传统 LLM 应用是单轮或短对话。AI Agent 则需要在循环中执行数十甚至数百步操作,每一步都产生新的上下文数据。Cognition(Devin 背后的公司)直言:

Context Engineering 是 AI Agent 构建者的第一要务。

因素二:上下文窗口的"虚假充裕"

现代模型宣称支持 128K 甚至 200 万 Token 的上下文窗口,但 Chroma 研究团队 2025 年的实验揭示了一个残酷现实:测试了 18 个顶级模型(包括 GPT-4.1、Claude、Gemini),每一个模型都随着输入长度增加而性能下降。部分模型在 95% 准确率附近保持稳定,一旦超过某个临界长度,准确率暴跌至 60%。

因素三:上下文腐烂(Context Rot)

这是比"注意力分散"更深层的问题。上下文腐烂指 LLM 性能随输入长度增加而退化的现象——即使在简单任务上也是如此。模型可能在某个长度内保持近乎完美准确率,然后性能断崖式下跌,且拐点因模型和任务而异,无法可靠预测。

1.3 Prompt Engineering vs Context Engineering 对比

维度Prompt EngineeringContext Engineering
关注焦点单条指令的措辞整个信息环境的设计
时间维度一次性、离散的迭代的、每步动态调整
覆盖范围系统提示词系统提示+工具+知识+历史+MCP+外部数据
适用场景单轮分类/生成多轮 Agent、长时任务
核心问题“如何措辞最优?”“模型此刻需要看到什么?”
工程复杂度低(文本编辑)高(需构建信息管理系统)

二、核心原理深度解析

2.1 上下文窗口的解剖学

理解 Context Engineering 的第一步是搞清楚上下文窗口中到底装了什么。一次典型的 LLM 调用中,上下文窗口被以下六类信息竞争占用:

[上下文窗口总容量] │ ├── 系统指令 ──→ 行为规则、角色设定、输出格式约束 │ ├── 用户输入 ──→ 当前问题或指令(通常只占极小比例) │ ├── 对话历史 ──→ 当前会话的短期记忆 │ ├── 检索知识 ──→ RAG 返回的文档片段、数据库查询结果 │ ├── 工具描述 ──→ 可用工具的定义与使用说明 │ └── 工具输出 ──→ 之前工具调用的返回结果

关键洞察:用户实际问题往往只占总 Token 数的极小比例。其余都是"基础设施"——而 Context Engineering 正是设计这些基础设施的学科。

2.2 注意力机制的三大结构性缺陷

Context Engineering 的存在意义源于 Transformer 架构本身的三个固有限制:

缺陷一:二次方计算复杂度

Transformer 的自注意力机制让每个 Token 都能关注其他所有 Token,产生 n² 的成对关系。这意味着上下文长度翻倍,计算量大约增加四倍。更长的上下文不仅更慢,而且成本呈超线性增长。

缺陷二:Lost in the Middle(中间丢失效应)

斯坦福大学 2023 年的研究发现,LLM 对输入开头和结尾的 Token 投入最多注意力,而中间部分的注意力显著衰减。将相关信息放在输入中间,准确率可能比放在开头或结尾下降超过 30%

这不是某个模型的 Bug,而是 RoPE(旋转位置编码)的结构性特征——远离序列首尾的 Token 会落入低注意力区域。

缺陷三:注意力预算的有限性

每引入一个新 Token,就从有限的注意力预算中消耗一部分。无关信息会将重要信息埋入低注意力区域;语义相关但实际无用的内容会混淆模型对相关性的判断。模型不会因为更多输入而变得更聪明——它只是被分散了注意力。

2.3 上下文失败的四种模式

LangChain 团队总结了上下文质量差导致 Agent 失败的四种典型模式:

失败模式描述典型场景
Context Poisoning(上下文投毒)幻觉内容进入上下文并被后续推理依赖Agent 基于错误的搜索结果继续推理
Context Distraction(上下文分散)上下文内容压过训练知识工具返回大量无关文档,模型忽略自身知识
Context Confusion(上下文混淆)多余上下文影响响应质量提供了太多工具描述,模型选错工具
Context Clash(上下文冲突)上下文中不同部分互相矛盾新旧文档对同一事实有不同描述

三、WSCI 四大核心策略详解

LangChain 团队将 Context Engineering 的实践归纳为四大策略框架——Write(写入)、Select(选择)、Compress(压缩)、Isolate(隔离),简称 WSCI。这一分类已被 Anthropic、Cognition 等广泛引用。

3.1 Write:将上下文写入外部存储

核心思想:不试图将所有信息塞入上下文窗口,而是将重要信息保存到外部存储,需要时再取回。

Write 策略有两种主要形式:

短期写入——Scratchpad(暂存器)

Agent 在执行长任务时,将中间计划、推理步骤、关键发现写入外部存储。Anthropic 的多智能体研究系统就是一个典型案例:

LeadResearcher 首先思考方案并将其保存到 Memory 中以持久化上下文,因为如果上下文窗口超过 200,000 Token 就会被截断,而保留计划至关重要。

实现方式包括:文件写入(如 CLAUDE.md)、运行时状态对象、数据库记录。

长期写入——Memory(记忆系统)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 15:35:00

某制造企业3周搭建MES系统:JVS低代码+物联网,成本降低75%

摘要 某中型机械加工企业(年产值2亿元,员工200人)面临生产进度不透明、设备停机无预警、质量追溯困难等痛点。传统MES系统采购成本高(60-100万元)、实施周期长(6-12个月),企业无力承…

作者头像 李华
网站建设 2026/6/25 15:34:30

LeetCode142:巧解链表环入口(多解)

题目LeetCode142给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系…

作者头像 李华
网站建设 2026/6/25 15:32:35

轻松搞定论文:6款2026年靠谱AI写论文工具深度横评

在学术写作面临全新挑战的今天,AI工具正从辅助角色演变为重要的生产力引擎。针对免费、好用且能提供真实引用支持的核心需求,经过对市面上主流工具的深入测试与分析,我们发现表现突出的工具有:千笔AI、ChatGPT、Claude、文心一言、…

作者头像 李华
网站建设 2026/6/25 15:28:48

101 01 黄大年茶思屋榜文101期 第1题 内存友好的高效MoE架构

摘要针对传统MoE大模型推理存在全专家常驻内存、RAM占用冗余度极高、逐Token动态路由频繁IO切换、终端功耗超标、精度与资源开销无法双向平衡的刚性工程缺陷,本文基于工业落地优先、鲁棒性优先、性价比优先原则,采用会话级专家静态锁定分层内存分级驻留场…

作者头像 李华
网站建设 2026/6/25 15:28:05

10分钟掌握xdotool:Linux桌面自动化的终极免费神器

10分钟掌握xdotool:Linux桌面自动化的终极免费神器 【免费下载链接】xdotool fake keyboard/mouse input, window management, and more 项目地址: https://gitcode.com/gh_mirrors/xd/xdotool 你是否厌倦了每天重复点击相同的按钮?是否希望让电…

作者头像 李华