news 2026/7/2 3:41:24

2023-2026大模型应用演进史:从指令对话到系统自治,每一步都踩中技术风口!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2023-2026大模型应用演进史:从指令对话到系统自治,每一步都踩中技术风口!

大模型应用的演进之路

第一阶段(2023年):Instruction Era —— 让模型“会聊天”

核心目标:Follow Instructions
从基础的语言生成转向精准理解并遵循人类指令,确保输出内容与用户意图高度对齐,是模型具备可用性的关键一步。

范式与技术栈:Prompt —> Answer
Pipeline:Pretraining —> SFT —> RLHF —> Chat Model。
核心技术涵盖监督微调(SFT)、基于人类反馈的强化学习(RLHF),以及PPO、DPO等对齐算法。

能力边界:强对话,弱行动
具备优秀的对话、总结、文案写作与基础代码能力,但Agent能力极弱,缺乏长程规划、工具使用与自主行动的闭环逻辑。

代表模型有:

第二阶段(2024年):Reasoning Era —— 让模型“会思考“

核心目标:从“直接输出"转向“推理决策”

  • 传统问答范式:Question —> Answer,直接映射输入输出,缺乏可解释的逻辑链条支撑。
  • 显式推理范式:Question —> Reasoning —> Answer,引入分步思考路径,通过过程监督强化逻辑严谨性。
关键技术栈与行业标杆模型

核心技术突破:CoT、Process Supervision、ToT、Self-Consistency等技术,赋予模型“思维链”拆解复杂问题的能力。

标杆模型代表:OpenAl o1系列、DeepSeek-R1,实现了数学、逻辑推理任务中准确性的质的飞跃。

核心特点:重过程
模型不再直接给出答案,而是像人类一样“分步思考”,通过显式的思维链拆解难题,大幅提升了在复杂逻辑任务上的可靠性。

当前局限:轻行动
尽管推理能力显著增强,但现阶段模型仍聚焦于静态任务的逻辑推导,主动规划、工具调用与环境交互的Agent自主行动能力尚未成为核心。

第三阶段(2025年):Agent Era —— 让模型”会做事”

核心转变:训练对象从单一的Question转向复杂的Task,聚焦解决实际问颗。

Pipeline:
遵循 “Learning by Doing”:Task(任务) —> Plan(计划) —> Action(执行) —> Observation(观察) —> Finish(结束)。

核心数据单位:以Trajectory(任务执行轨迹)为基础,记录Agent的每一步决策与交互过程。

Reward 来源
多维度反馈机制:结合Verifier、Unit Test、Environment实现自动评价。

Computer Use:Agent可像人类一样操作电脑界面、使用软件完成任务,打通数字世界与物理操作的界限。

Coding Agent:以Claude Code、Cursor、Trae为代表,Al能够自主理解需求、编写代码并调试,成为开发者的智能伙伴。

Openclaw、Hermes Agent:一个强大的AIAgent系统,专注于解决复杂的现实世界任务。

第四阶段(2026):System Era —— 训练整个Agent系统

核心转变:从单一模型到系统级训练
Al训练的对象发生根本性迁移,不再局限于优化孤立的Transformer模型参数,而是转向训练由智能体主导的、具备感知与决策能力的完整系统。

系统构成:六大核心要素闭环
由LLM作为大脑,协同Planner规划、Memory记忆、Tool工具使用、Environment环境交互与Verifier验证器共同组成,形成具备自主进化能力的智能体系统。

闭环训练 Pipeline:
任务 —> Agent Harness —> 轨迹生成 —> 验证器 —> 奖励反馈 —> 强化学习更新 —> 新智能体,形成自我迭代的闭环。

关键技术概念:融合Test-Time Scaling、Trajectory Generation、 Agent Training Pipeline与Self-Play等前沿范式,实现能力的指数级增长。

灵感来源:足球队
这就像从“培养一个天才球员”到“打造一支顶级足球队”。球队不仅需要技术出色的球星(LLM),还需要教练(Planner)战术板(Memory)训练器材(Tool),并在真实比赛(Environment)中根据反馈(Verifier)调整。

总结:四年演进之路

2023年学习语言:从基础对话模型起步,掌握语言理解与生成的核心范式。
2024年学习推理:从结果导向转向过程优化,构建可解释的逻辑推理链条。
2025年学习行动:Agent具身落地,通过环境交互与轨迹优化实现任务执行。
2026年学习系统:迈向多智能体协同的自治系统,具备自我进化与全局规划能力。

年份训练对象数据单位Reward信号源核心能力
2023对话模型(Chat Model)Prompt —> Answer(问答对)人类偏好自然语言交互与生成
2024推理模型(Reasoning Model)promot —> Reasoning —> Answer(推导链式问答)过程与结果并重逻辑推演与复杂问题拆解
2025智能体(Agent)Task —> plan —> action —> observation —> finish(Trajectory任务执行链)环境反馈/验证器基于反馈的行动与任务闭环
2026多智能体(Multi-Head Agent)Task —> Harness —> Trajectory —> Verifier —> 奖励反馈 —> 强化学习更新 —> 新智能体环境反馈/验证器/奖励反馈/强化学习基于奖励反馈的强化学习

能力叠加而非替代:技术并非颠覆性更替,而是底层能力的逐层累积,训练重心从单一模型向系统生态迁移。

趋势前瞻与现实考量:2025-2026阶段基于当前公开研究与行业实践进行合理推演,代表了AI发展的必然方向。

Harness框架下的训练范式

第一类:人类反馈(Human Labels)

传统模式:人类主导评分
在经典RLHF框架中,人类直接作为“评分员”,通过对模型输出进行打分、A/B测试对比或偏好排序,直接决定数据的优劣。
核心流程:prompt —> 生成候选答案 —> 人类逐条选择/打分。

可以看下我之前写的文章 # 初遇Open AI,深入了解大语言模型训练范式 有介绍到奖励模型RM,人类主导评分。

模式演进:转向高层标注
人类不再编写具体的 reward 函数或做细粒度评分,转而聚焦“高层认知判断”:评估推理逻辑是否自洽、Agent任务行为是否成功、输出是否符合安全与伦理规范。
标注核心:从 “给分” 变为 “定性判断合理性与合规性”。

定位重塑:基准与校准核心
人类反馈退居“配角”,主要作为高质量种子数据、模型校准的标尺,以及最终效果的评估基准,而非持续更新的主要奖励信号来源。
价值锚点:确立标准,而非驱动每一次参数更新。

核心洞察:人类角色完成从“直接执行者”到“规则制定者、裁判者与校准者”的关键转变。

第二类:AI反馈(RLAIF)

核心逻辑:以强模型为“智能裁判"
利用性能更强的Judge Model(裁判模型),对目标模型的输出结果进行自动打分与评估,形成闭环的反馈信号。

执行流程:ModelA生成回答 —> Judge Model基于标准评估 —> 输出质量分数与修正建议。

主流实践范式:

  • Critique & Revise:先批评不足,再引导模型自我修正,迭代优化回答质量。
  • Constitutional AI:基于预设的伦理与安全原则,让模型自查是否符合规范。
  • 多模型投票:集合多个不同模型的评估结果,通过加权投票降低单一偏见。
  • 高扩展性与低成本:摆脱人类标注的效率瓶颈,可规模化生成海量高质量反馈数据。
  • 非“随意”,重标准:基于严格的评估准则(Rubric)与步骤级推理检查,保障质量。

核心价值:通过AI自我监督与评估,构建可持续、高质量的模型迭代闭环,是当前大模型对齐的主流路径。

第三类:可验证反馈(Verifiable Reward)

核心思想发生根本转变:从依赖模糊的“人类主观评价”,转向基于客观事实的“外部系统验证”。不再依靠人工打分,而是通过数学等式、代码测试、逻辑约束等明确规则,自动判定结果的正确性,实现奖励信号的精准与可规模化。

  • 数学等式验证:通过符号计算直接判定,模型输出的最终答案是否严格等于标准答案(groundtruth)。
  • 代码单元测试:生成代码补丁后,自动运行预设的单元测试用例,以Pass/Fail作为客观反馈信号。
  • 逻辑约束满足:检查模型的推理步骤是否符合预设的逻辑规则、物理定律或特定领域的约束条件。
  • Agent任务完成度:在模拟环境中执行具体操作,由环境自动监控并反馈任务目标是否达成、执行是否成功。

工程化代码场景:GitHub Issue —> CI流水线
从实际开发需求出发,生成代码补丁后自动接入持续集成系统,利用成熟的测试基建输出客观的质量反馈。

具身智能模拟:Web/OS任务沙箱
构建虚拟化的操作环境,Agent执行文件操作、网页交互等任务,环境实时捕获状态变化并自动判定结果。

符号领域:合成问题生成器
通过算法批量生成数学题、逻辑题及其标准答案,利用符号引擎自动校验解题过程的每一步推导是否严谨。

第四类:环境反馈(Agent Interaction Logs)

核心价值在于实现推理能力的跃迁。
数据形式从孤立的问答,进化为包含状态、动作和结果的完整交互序列,记录了Agent在环境中试错、探索与决策的全过程。

  • Coding Agent(代码智能体):采集IDE日志、编译运行与调试堆栈,还原代码生成与修复的完整逻辑链条。
  • Web Agent(网页智能体):记录浏览器点击、滚动、搜索等交互行为,沉淀复杂信息检索与任务执行的轨迹。
  • OS Agent(系统智能体):捕获文件操作、终端命令执行日志,获取智能体与操作系统底层交互的关键决策数据。

交互序列范式:state so —> action a1 —> state s1 —> action a2 —> … —> reward (反馈)。

核心转变:新系统不是“收集答案”,而是“收集轨迹”

旧模式:静态问答对(Prompt —> Answer)
数据仅保留最终结果,缺乏中间决策逻辑,模型学习依赖静态反馈,难以应对复杂的多步推理任务,泛化性受限。

新模式:动态决策轨迹(Prompt —> Steps —> Outcome)
完整记录模型思考的每一步操作与环境交互,数据包含过程信息。通过优化轨迹的回报函数,让模型学会在动态环境中寻找最优解决路径。

  • 生成轨迹:模型+工具+环境交互,产出完整行为序列。
  • 自动打分:单元测试、规则检查器与模型裁判联合评分。
  • 筛选轨迹:Best-of-N采样与拒绝采样,保留高质量样本。
  • 策略训练:应用RL、DPO、PPO等算法优化模型参数。
  • 闭环迭代:将训练后的模型重新投入环境,生成更强轨迹。

旧认知局限:RL = 单纯依赖人类打分进行模型微调。不仅标注成本极高,且人类反馈难以覆盖复杂场景的细微差异。

新认知升级:RL = 构造 Verifier + Environment 的"自动评分世界”。让模型在可交互、可反馈的环境中,自主学习高效的问题搜索策略。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/2 3:41:01

鸿蒙原生 ArkTS 布局深度解析:响应式的组件可见性控制

鸿蒙原生 ArkTS 布局深度解析:响应式的组件可见性控制 一、引言 在移动端与多终端生态中,屏幕尺寸的碎片化一直是 UI 开发的核心挑战之一。从 1.2 英寸的智能手表,到 6.7 英寸的折叠屏手机,再到 12 英寸以上的平板与桌面设备&…

作者头像 李华
网站建设 2026/7/2 3:39:59

机器视觉自动曝光综述

一、视觉仪器 1.内窥镜、显微镜相机、工业相机、光谱仪、智能相机、摄像机自动曝光算法 2.显微镜相机、病理扫描仪、工业检测相机、内窥镜二、曝光 1.曝光由光圈、快门、ISO增益控制 2.有些智能仪器中光圈是固定的,这个时候智能调整电子快门和增益可调 3.目标通常是…

作者头像 李华
网站建设 2026/7/2 3:38:10

零壹教育:语义距离驱动的网页排序机制与技术实现

零壹教育:最早的搜索引擎,工作方式很简单:你在搜索框里输入什么词,它就去网页里找一模一样的词。这种“精确匹配”的模式,在早年还够用,但放到今天问题就很明显了。比如你搜“怎么修电脑”,但一…

作者头像 李华
网站建设 2026/7/2 3:37:06

AI突破会话框 :dsl + codex 才是真的香

使用场景当 AI Agent 检测到以下需求时,可以启用该技能:需要生成系统架构图、业务流程图、部署图等图表需要将 DSL 内容渲染到 JVS-Draw 网页中需要在本地开发环境中自动打开 ​​https://draw.bctools.cn​​需要通过脚本将临时 DSL 文件传入网页渲染工…

作者头像 李华
网站建设 2026/7/2 3:36:49

Prompt工程核心思维:从凑字数到标准化指令,彻底吃透AI交互逻辑

在AI工具普及的当下,大部分用户的使用逻辑依旧停留在“随口提问”阶段。同样的AI模型,有人只能得到碎片化、低质量的通用答案,有人却能产出精准、结构化、可直接落地的专业内容。造成巨大差距的核心原因,从来不是模型版本&#xf…

作者头像 李华