大模型应用的演进之路
第一阶段(2023年):Instruction Era —— 让模型“会聊天”
核心目标:Follow Instructions
从基础的语言生成转向精准理解并遵循人类指令,确保输出内容与用户意图高度对齐,是模型具备可用性的关键一步。
范式与技术栈:Prompt —> Answer
Pipeline:Pretraining —> SFT —> RLHF —> Chat Model。
核心技术涵盖监督微调(SFT)、基于人类反馈的强化学习(RLHF),以及PPO、DPO等对齐算法。
能力边界:强对话,弱行动
具备优秀的对话、总结、文案写作与基础代码能力,但Agent能力极弱,缺乏长程规划、工具使用与自主行动的闭环逻辑。
代表模型有:
第二阶段(2024年):Reasoning Era —— 让模型“会思考“
核心目标:从“直接输出"转向“推理决策”
- 传统问答范式:Question —> Answer,直接映射输入输出,缺乏可解释的逻辑链条支撑。
- 显式推理范式:Question —> Reasoning —> Answer,引入分步思考路径,通过过程监督强化逻辑严谨性。
关键技术栈与行业标杆模型
核心技术突破:CoT、Process Supervision、ToT、Self-Consistency等技术,赋予模型“思维链”拆解复杂问题的能力。
标杆模型代表:OpenAl o1系列、DeepSeek-R1,实现了数学、逻辑推理任务中准确性的质的飞跃。
核心特点:重过程
模型不再直接给出答案,而是像人类一样“分步思考”,通过显式的思维链拆解难题,大幅提升了在复杂逻辑任务上的可靠性。
当前局限:轻行动
尽管推理能力显著增强,但现阶段模型仍聚焦于静态任务的逻辑推导,主动规划、工具调用与环境交互的Agent自主行动能力尚未成为核心。
第三阶段(2025年):Agent Era —— 让模型”会做事”
核心转变:训练对象从单一的Question转向复杂的Task,聚焦解决实际问颗。
Pipeline:
遵循 “Learning by Doing”:Task(任务) —> Plan(计划) —> Action(执行) —> Observation(观察) —> Finish(结束)。
核心数据单位:以Trajectory(任务执行轨迹)为基础,记录Agent的每一步决策与交互过程。
Reward 来源
多维度反馈机制:结合Verifier、Unit Test、Environment实现自动评价。
Computer Use:Agent可像人类一样操作电脑界面、使用软件完成任务,打通数字世界与物理操作的界限。
Coding Agent:以Claude Code、Cursor、Trae为代表,Al能够自主理解需求、编写代码并调试,成为开发者的智能伙伴。
Openclaw、Hermes Agent:一个强大的AIAgent系统,专注于解决复杂的现实世界任务。
第四阶段(2026):System Era —— 训练整个Agent系统
核心转变:从单一模型到系统级训练
Al训练的对象发生根本性迁移,不再局限于优化孤立的Transformer模型参数,而是转向训练由智能体主导的、具备感知与决策能力的完整系统。
系统构成:六大核心要素闭环
由LLM作为大脑,协同Planner规划、Memory记忆、Tool工具使用、Environment环境交互与Verifier验证器共同组成,形成具备自主进化能力的智能体系统。
闭环训练 Pipeline:
任务 —> Agent Harness —> 轨迹生成 —> 验证器 —> 奖励反馈 —> 强化学习更新 —> 新智能体,形成自我迭代的闭环。
关键技术概念:融合Test-Time Scaling、Trajectory Generation、 Agent Training Pipeline与Self-Play等前沿范式,实现能力的指数级增长。
灵感来源:足球队
这就像从“培养一个天才球员”到“打造一支顶级足球队”。球队不仅需要技术出色的球星(LLM),还需要教练(Planner)、战术板(Memory)、训练器材(Tool),并在真实比赛(Environment)中根据反馈(Verifier)调整。
总结:四年演进之路
2023年学习语言:从基础对话模型起步,掌握语言理解与生成的核心范式。
2024年学习推理:从结果导向转向过程优化,构建可解释的逻辑推理链条。
2025年学习行动:Agent具身落地,通过环境交互与轨迹优化实现任务执行。
2026年学习系统:迈向多智能体协同的自治系统,具备自我进化与全局规划能力。
| 年份 | 训练对象 | 数据单位 | Reward信号源 | 核心能力 |
|---|---|---|---|---|
| 2023 | 对话模型(Chat Model) | Prompt —> Answer(问答对) | 人类偏好 | 自然语言交互与生成 |
| 2024 | 推理模型(Reasoning Model) | promot —> Reasoning —> Answer(推导链式问答) | 过程与结果并重 | 逻辑推演与复杂问题拆解 |
| 2025 | 智能体(Agent) | Task —> plan —> action —> observation —> finish(Trajectory任务执行链) | 环境反馈/验证器 | 基于反馈的行动与任务闭环 |
| 2026 | 多智能体(Multi-Head Agent) | Task —> Harness —> Trajectory —> Verifier —> 奖励反馈 —> 强化学习更新 —> 新智能体 | 环境反馈/验证器/奖励反馈/强化学习 | 基于奖励反馈的强化学习 |
能力叠加而非替代:技术并非颠覆性更替,而是底层能力的逐层累积,训练重心从单一模型向系统生态迁移。
趋势前瞻与现实考量:2025-2026阶段基于当前公开研究与行业实践进行合理推演,代表了AI发展的必然方向。
Harness框架下的训练范式
第一类:人类反馈(Human Labels)
传统模式:人类主导评分
在经典RLHF框架中,人类直接作为“评分员”,通过对模型输出进行打分、A/B测试对比或偏好排序,直接决定数据的优劣。
核心流程:prompt —> 生成候选答案 —> 人类逐条选择/打分。
可以看下我之前写的文章 # 初遇Open AI,深入了解大语言模型训练范式 有介绍到奖励模型RM,人类主导评分。
模式演进:转向高层标注
人类不再编写具体的 reward 函数或做细粒度评分,转而聚焦“高层认知判断”:评估推理逻辑是否自洽、Agent任务行为是否成功、输出是否符合安全与伦理规范。
标注核心:从 “给分” 变为 “定性判断合理性与合规性”。
定位重塑:基准与校准核心
人类反馈退居“配角”,主要作为高质量种子数据、模型校准的标尺,以及最终效果的评估基准,而非持续更新的主要奖励信号来源。
价值锚点:确立标准,而非驱动每一次参数更新。
核心洞察:人类角色完成从“直接执行者”到“规则制定者、裁判者与校准者”的关键转变。
第二类:AI反馈(RLAIF)
核心逻辑:以强模型为“智能裁判"
利用性能更强的Judge Model(裁判模型),对目标模型的输出结果进行自动打分与评估,形成闭环的反馈信号。
执行流程:ModelA生成回答 —> Judge Model基于标准评估 —> 输出质量分数与修正建议。
主流实践范式:
- Critique & Revise:先批评不足,再引导模型自我修正,迭代优化回答质量。
- Constitutional AI:基于预设的伦理与安全原则,让模型自查是否符合规范。
- 多模型投票:集合多个不同模型的评估结果,通过加权投票降低单一偏见。
- 高扩展性与低成本:摆脱人类标注的效率瓶颈,可规模化生成海量高质量反馈数据。
- 非“随意”,重标准:基于严格的评估准则(Rubric)与步骤级推理检查,保障质量。
核心价值:通过AI自我监督与评估,构建可持续、高质量的模型迭代闭环,是当前大模型对齐的主流路径。
第三类:可验证反馈(Verifiable Reward)
核心思想发生根本转变:从依赖模糊的“人类主观评价”,转向基于客观事实的“外部系统验证”。不再依靠人工打分,而是通过数学等式、代码测试、逻辑约束等明确规则,自动判定结果的正确性,实现奖励信号的精准与可规模化。
- 数学等式验证:通过符号计算直接判定,模型输出的最终答案是否严格等于标准答案(groundtruth)。
- 代码单元测试:生成代码补丁后,自动运行预设的单元测试用例,以Pass/Fail作为客观反馈信号。
- 逻辑约束满足:检查模型的推理步骤是否符合预设的逻辑规则、物理定律或特定领域的约束条件。
- Agent任务完成度:在模拟环境中执行具体操作,由环境自动监控并反馈任务目标是否达成、执行是否成功。
工程化代码场景:GitHub Issue —> CI流水线
从实际开发需求出发,生成代码补丁后自动接入持续集成系统,利用成熟的测试基建输出客观的质量反馈。
具身智能模拟:Web/OS任务沙箱
构建虚拟化的操作环境,Agent执行文件操作、网页交互等任务,环境实时捕获状态变化并自动判定结果。
符号领域:合成问题生成器
通过算法批量生成数学题、逻辑题及其标准答案,利用符号引擎自动校验解题过程的每一步推导是否严谨。
第四类:环境反馈(Agent Interaction Logs)
核心价值在于实现推理能力的跃迁。
数据形式从孤立的问答,进化为包含状态、动作和结果的完整交互序列,记录了Agent在环境中试错、探索与决策的全过程。
- Coding Agent(代码智能体):采集IDE日志、编译运行与调试堆栈,还原代码生成与修复的完整逻辑链条。
- Web Agent(网页智能体):记录浏览器点击、滚动、搜索等交互行为,沉淀复杂信息检索与任务执行的轨迹。
- OS Agent(系统智能体):捕获文件操作、终端命令执行日志,获取智能体与操作系统底层交互的关键决策数据。
交互序列范式:state so —> action a1 —> state s1 —> action a2 —> … —> reward (反馈)。
核心转变:新系统不是“收集答案”,而是“收集轨迹”
旧模式:静态问答对(Prompt —> Answer)
数据仅保留最终结果,缺乏中间决策逻辑,模型学习依赖静态反馈,难以应对复杂的多步推理任务,泛化性受限。
新模式:动态决策轨迹(Prompt —> Steps —> Outcome)
完整记录模型思考的每一步操作与环境交互,数据包含过程信息。通过优化轨迹的回报函数,让模型学会在动态环境中寻找最优解决路径。
- 生成轨迹:模型+工具+环境交互,产出完整行为序列。
- 自动打分:单元测试、规则检查器与模型裁判联合评分。
- 筛选轨迹:Best-of-N采样与拒绝采样,保留高质量样本。
- 策略训练:应用RL、DPO、PPO等算法优化模型参数。
- 闭环迭代:将训练后的模型重新投入环境,生成更强轨迹。
旧认知局限:RL = 单纯依赖人类打分进行模型微调。不仅标注成本极高,且人类反馈难以覆盖复杂场景的细微差异。
新认知升级:RL = 构造 Verifier + Environment 的"自动评分世界”。让模型在可交互、可反馈的环境中,自主学习高效的问题搜索策略。