news 2026/5/28 1:24:19

大模型“自我进化”入门到精通,看这篇保姆级论文拆解就够了!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型“自我进化”入门到精通,看这篇保姆级论文拆解就够了!

这篇论文来自Mila(蒙特利尔大学)Snowflake的联合团队,一作 Xiaoyin Chen,通讯作者 Canwen Xu。论文发布于 2026 年 3 月,arXiv 编号 2603.18620。

研究聚焦的问题很直接:LLM 训练完成后,部署阶段就"定型"了。无论它在某个领域解了多少题、积累了多少经验,context 一清空,一切归零。这就像一个棋手每盘棋结束后都会失忆 —— 显然不合理。

围绕"测试时自我进化(test-time self-evolution)“这个方向,已有不少工作尝试让模型在部署后持续改进自身的 prompt 或 context。但这些方法有一个共同的"先天缺陷”:它们完全依赖模型自身的推理能力来分析反馈、提出改进,却从未专门训练过模型做这件事。

LSE 的核心思路是:既然"自我进化"本质上是一个推理任务,那就把它当作一项可学习的技能来训练。具体做法是将多步演化问题简化为单步 RL 目标,用"编辑前后性能差(improvement-based reward)"作为奖励信号;推理时再结合树搜索(tree-guided evolution)进行多轮迭代。

实验结果颇具冲击力:一个仅4B 参数的模型,经过 LSE 训练后,在 Text-to-SQL(BIRD)和通用问答(MMLU-Redux)两个任务上,超过了用 GPT-5 和 Claude Sonnet 4.5 驱动的自进化策略,也优于 GEPA、TextGrad 等 prompt 优化方法。而且,这个训练好的进化策略还能迁移到其他模型上使用,无需额外训练。

从技术视角看,这篇工作的亮点在于:1)将 self-evolution 形式化为一个 RL 问题并给出了简洁的训练范式;2)improvement-based reward 的设计有理论支撑且实验验证清晰;3)UCB 树搜索在 context 空间中的探索机制设计巧妙。论文写作规范,实验设计合理,消融分析到位,整体完成度较高,值得细读。

● ● ●

1 Introduction

训练结束就"定型"?LLM 缺少的不是能力,而是一种持续进化的机制。

论文开篇从人类智能的核心特征说起:适应性(adaptability)

一个棋手通过复盘来提升棋力,一个程序员在日复一日的工作中逐渐熟悉代码库。这两个例子有一个共同点 ——经验在积累,行为在调整。

当前 LLM 的训练流程其实也有类似的动态过程。尤其是后训练阶段(post-training),通过 RL 在模型自己生成的数据上进行优化。但问题在于:

训练一旦结束,学习就停止了。部署后的 LLM 不管解了多少同领域的问题,都用同一套策略应对。context 一重置,之前积累的所有经验全部丢失。

这种"静态部署"与"动态适应"之间的鸿沟,催生了测试时自进化系统(test-time self-evolving systems)的研究方向。

自进化的两个维度

论文从两个维度梳理了自进化的研究版图:

维度一:如何更新策略?

基于梯度(gradient-based):直接修改模型参数

基于 prompt(prompt-based):保持参数冻结,只改写模型的 context

维度二:何时更新策略?

Intra-episode(单集内进化):在同一个问题上反复尝试、逐步改进。比如 Reflexion 让模型反思失败并重试,SCoRe 通过 RL 训练自纠正能力,TTRL 在测试时直接做 RL。这类方法用额外计算换取单个问题上的准确率提升,但知识不跨问题迁移

Inter-episode(跨集进化):在完成一批问题后更新策略,并将改进应用到新问题上。这类方法提取的是可迁移的知识

LSE 聚焦的是inter-episode、prompt-based的自进化:模型观察自己在一批问题上的表现,然后改写自己的 context,以期在下一批问题上做得更好。

现有方法的"先天不足"

在这个方向上,已有不少探索:

自动 prompt 优化:DSPy、GEPA、TextGrad 等,用自然语言反馈迭代修改 prompt

自指涉更新(self-referential updates):ExpeL 从成功/失败轨迹中提取教训,PromptBreeder 通过变异和交叉算子进化 prompt,ADAS 和 Darwin Godel Machine 更进一步,递归地重新设计自进化策略本身

Agentic 记忆系统:Voyager 在 Minecraft 中积累可复用的技能库,MemGen 和 Mem0 维护跨 episode 的记忆存储

但这些方法都有一个共性问题:

它们完全依赖 LLM内在的推理能力来分析反馈、提出改进方案。模型从未被专门训练去做"自我改进"这件事。

LSE 的核心洞察

论文在这里提出了一个关键论点:

自进化(self-evolution)是一个与其他推理任务截然不同的推理挑战。它本质上具有 RL 问题的结构:模型需要判断当前 context 的哪些部分有帮助、哪些有害(credit assignment),预判修改后会如何影响下游行为(gradient estimation),并在"改良已有方案"和"尝试全新方向"之间做权衡(exploration vs. exploitation)。

为什么说自进化是一个独特的推理挑战?在常规推理任务中,模型面对的是"给定输入,产生正确输出"。而在自进化中,模型要做的是"分析一系列输入-输出-反馈,然后修改自己的指令以提升未来表现"。这需要元认知能力 —— 不是解题,而是"学会如何更好地解题"。一个 RL 优化器靠专门的算法来做信用分配、梯度估计和探索-利用平衡,而自进化模型必须仅凭自然语言推理来隐式完成这三件事。

基于这一洞察,作者提出了Learning to Self-Evolve(LSE)

LSE 是一个 RL 框架,显式训练 LLM 成为一个高效的自进化策略。训练时,将多步演化简化为单步:模型接收当前 context 和性能摘要,生成改进后的 context。每次编辑的奖励是下游性能的提升量(improvement),而非绝对分数。推理时,通过树引导的演化循环(tree-guided evolution loop)支持探索和回溯。

主要贡献

论文总结了三个贡献:

  1. 形式化了测试时跨集自进化,并通过 prompt-based 更新 + 树搜索将其落地实现(3.1, 3.2 节)

  2. 提出 LSE 框架,用 improvement-based reward 显式训练自进化策略(3.3 节)

  3. 实验验证:4B 模型经 LSE 训练后超越 GPT-5、Claude Sonnet 4.5 等更大模型和 GEPA、TextGrad 等优化方法,且可迁移引导其他模型(第 4 节)

Figure 1: Overview of Learning to Self-Evolve (LSE). Left: Tree-guided self-evolution at test time. Upper Confidence Bound (UCB) selection chooses a context from the evolution tree; the action model generates outputs for a new batch of problems; the self-evolving policy receives the performance summary and proposes a revised context. Right: LSE trains the self-evolving policy via RL with an improvement-based reward computed as the difference between post-edit and pre-edit performance.

本章小结:本章指出了当前 LLM 部署的核心缺陷 —— 训练后即静态,无法利用测试时积累的经验持续进化。现有的 test-time self-evolution 方法依赖模型内在的推理能力,从未专门训练这项技能。LSE 将自进化视为一个可学习的 RL 问题,通过单步 improvement-based reward 训练 + 树搜索推理,让一个 4B 小模型超越了 GPT-5 级别的 frontier model。这为"把自进化当作一项独立技能来训练"提供了有力证据。

● ● ●

3 Method

把"自我进化"拆解为三个问题:怎么形式化?怎么搜索?怎么训练?

这一章是论文的核心技术部分,分三个小节层层递进:

3.1:定义问题 —— 什么是测试时跨集自进化?

3.2:设计推理算法 —— 如何用树搜索实现 prompt-based 的自进化?

3.3:训练自进化策略 —— 如何用 RL 让模型学会高效地自我改进?

3.1 Test-Time Inter-Episode Evolution(测试时跨集进化)

先把问题说清楚:什么是"进化"?"进化"什么?怎么衡量"进化"好不好?

基本设定

论文首先定义了一个清晰的系统架构。整个自进化系统由两个模型组成:

Action Model(行动模型):负责解决实际任务。比如在 Text-to-SQL 场景中,它接收自然语言问题并生成 SQL 查询。Action Model 的参数始终冻结,不做任何修改。

Self-Evolving Policy(自进化策略):负责改进 Action Model 的 context。它观察 Action Model 的表现,然后生成新的 context 来帮助 Action Model 做得更好。

为什么要分成两个模型?直觉上,让一个模型既解题又改进自己似乎更简洁。但分离有明确的好处:1)Action Model 可以是任意模型(包括 API-only 的闭源模型),Self-Evolving Policy 只需要是一个相对小的模型;2)训练目标更纯粹 —— Self-Evolving Policy 只需要学"如何改 context"这一件事;3)训练好的 Self-Evolving Policy 可以迁移到不同的 Action Model 上。

Context 的定义

Context是注入到 Action Model 的系统 prompt 中的一段文本。它可以包含:

任务指令(task instructions)

策略/技巧(tips and strategies)

少样本示例(few-shot examples)

● 或任何对 Action Model 有帮助的信息

形式上,给定一个测试样本 ,Action Model 在 context 下生成输出 ,然后用评估函数 打分。

进化循环

自进化过程被组织为**多轮(multi-round)**的迭代循环。每一轮的流程如下:

  1. 评估:用当前 context 让 Action Model 在一批验证样本上运行,收集结果

  2. 反馈摘要:将评估结果汇总为一个性能摘要(performance summary),包含准确率等统计信息,以及成功/失败案例的样本

  3. 进化:Self-Evolving Policy 根据当前 context 和摘要 ,生成新的 context

  4. 重复:用 进入下一轮

用公式表示就是(对应论文 Eq. 1-3):

核心目标:找到一个 context *,*使得 Action Model 在测试集上的平均得分最大化(Eq. 4):

性能摘要的具体内容

论文在附录 B 给出了摘要的详细格式。它包含:

● 当前准确率和之前几轮的准确率变化趋势

● 随机采样的成功案例失败案例(各若干个)

● 每个案例包括输入、Action Model 的输出、正确答案(如果可用)

为什么用摘要而不是直接给全部数据?两个原因:1)context 窗口有限,不可能塞下所有评估结果;2)摘要本身就是一种信息压缩,强迫系统关注最重要的模式而非陷入细节。

3.2 Prompt-Based Evolution with Tree Search(基于 Prompt 的树搜索进化)

如果每次只沿一条路走,很容易陷入局部最优。树搜索让进化有了"回溯"和"探索"的能力。

朴素方案的问题

最简单的自进化方式是贪心链式进化(greedy chain evolution):每轮只保留一个 context,逐步改进。但这有两个严重问题:

  1. 不可逆性:一次坏的修改会覆盖掉之前的好 context,而且后续很难恢复

  2. 局部最优:贪心策略容易陷入 context 空间中的局部最优,无法跳出来探索其他方向

树结构的引入

为了解决这两个问题,LSE 将进化过程组织为一棵树(tree)

根节点:初始 context (通常是一个简单的任务描述)

每条边:代表一次 context 修改操作

每个节点:代表一个 context 版本及其评估结果

每一轮进化不再是线性链式的,而是:

  1. 从树中选择一个节点作为出发点

  2. 从这个节点生成一个或多个子节点(新 context)

  3. 评估新 context 的表现

  4. 将结果挂回树上

这样就自然获得了两个关键能力:

回溯(backtracking):如果当前方向走不通,可以回到之前的节点重新探索

分支探索(branching):同一个节点可以生成多个不同的子节点,探索不同的改进方向

UCB 节点选择策略

关键问题来了:每一轮应该选择哪个节点来扩展?

这其实是一个经典的探索-利用权衡(exploration-exploitation trade-off)问题。论文借鉴了UCB(Upper Confidence Bound)算法来做节点选择。

每个节点 的 UCB 分数计算如下(对应论文 Eq. 5):

其中:

● :节点 的平均价值,衡量"利用"(exploitation)—— 从这个节点出发,历史上产生了多好的后代?

● :探索奖励(exploration bonus)—— 是总访问次数, 是节点 的访问次数。访问越少,探索奖励越大

● :探索系数,控制探索与利用的权衡

价值函数的设计

节点的平均价值怎么算?论文设计了一个混合公式(Eq. 6):

● 第一项 :节点自身的评估分数(当前 context 的直接表现)

● 第二项 :子节点中的最佳价值(后代的潜力)

● :平衡系数

为什么要混合自身分数和后代分数?纯粹看自身分数()会导致总是从当前最好的节点出发,这又退化成了贪心。纯粹看后代潜力()则忽略了当前节点本身的质量。混合两者既鼓励从高分节点出发(因为高分 context 更可能产出更好的后代),又不完全忽略那些自身分数不高但后代表现出色的"潜力股"。

完整的树搜索进化算法

把上面的组件组合起来,每一轮的完整流程是(对应论文 Algorithm 1):

Algorithm 1:Prompt-based Evolution with Tree Search

输入:初始 context 、Self-Evolving Policy 、Action Model 、进化轮数

  1. 初始化树 ,根节点为

  2. 评估 在验证集上的表现,得到 和摘要

  3. For

a. 用 UCB 公式选择一个节点

b. 构造摘要

c. 调用 Self-Evolving Policy 生成新 context:

d. 用 Action Model 在验证集上评估

e. 将 作为 的子节点挂到树上

f. 反向传播更新路径上所有节点的价值

  1. 返回树中得分最高的 context

树搜索与 MCTS 有什么关系?形式上很相似 —— 都用 UCB 做节点选择,都有反向传播更新价值。但区别在于:传统 MCTS 在一个已知的动作空间上搜索(如围棋的落子位置),而 LSE 的"动作"是用自然语言改写 context,动作空间是无限且连续的。此外,传统 MCTS 通常用 rollout 来估计价值,而 LSE 直接用真实评估分数。所以 LSE 的树搜索更像是一个在 context 空间中做 beam search + 回溯的进化算法

3.3 Learning to Self-Evolve(学习自进化)

前面定义了"做什么"和"怎么搜索",这一节解决最核心的问题:怎么让**成为一个好的自进化策略?

核心挑战:多步 vs 单步

自进化本质上是一个序贯决策(sequential decision making)问题:每一步的 context 修改都会影响后续所有步骤。理论上应该用多步 RL(如 PPO 在 MDP 上的标准做法)来优化。

但多步 RL 在这里面临严重的实际困难:

  1. 信用分配困难:最终的 context 好不好,是多轮修改共同作用的结果。哪一步修改贡献了多少?极难判断。

  2. 高方差:每一步都需要完整评估(让 Action Model 在整个验证集上跑一遍),评估本身就有随机性,多步累积后方差爆炸。

  3. 计算代价高:每一步训练都需要完整的"生成新 context → 评估 → 计算奖励"循环,T 步进化意味着 T 倍的开销。

关键简化:单步 RL

论文提出了一个优雅的简化:将多步进化问题分解为多个独立的单步优化问题。

具体来说,不去优化整个 T 步序列的累计奖励,而是训练 让每一步修改都尽可能好

形式上,对于每一步, 的输入是 (当前 context 和性能摘要),输出是新 context 。优化目标是最大化(Eq. 7):

其中 是单步奖励

为什么单步就够了?直觉上,如果每一步都在变好,那整个序列就在变好。虽然这不是严格最优的(因为忽略了长期规划),但在实际中足够好 —— 因为树搜索机制已经提供了全局探索的能力。单步 RL 负责"每一步修改都有质量",树搜索负责"全局路径选择",两者各司其职。

奖励设计:Improvement-based Reward

奖励函数的设计是 LSE 的另一个关键创新。

最直觉的做法是用新 context 的绝对分数作为奖励:。但论文指出这有严重问题:

绝对分数的问题:如果当前 context 已经很好(比如准确率 90%),那新 context 的分数也很可能在 90% 左右。对于 RL 来说,所有动作的奖励都差不多,梯度信号极弱 —— 模型学不到什么有用的东西。本质上,绝对分数包含了太多与当前"动作"(context 修改)无关的方差。

因此,LSE 采用improvement-based reward(基于提升量的奖励)(Eq. 8):

即新 context 的分数减去旧 context 的分数。这个设计简单却深刻:

● 只关注边际改进,过滤掉了与当前动作无关的"基线"方差

● 正奖励意味着改进成功,负奖励意味着退步 —— 信号非常清晰

● 从统计角度看, 本质上充当了一个控制变量(control variate),降低了梯度估计的方差

与 GRPO 的 baseline 设计对比:GRPO 用同一个 prompt 下多个采样的均值作为 baseline。LSE 的 improvement-based reward 则用前一步的分数作为 baseline。后者更自然地契合了"进化"的语义 —— 不是和其他候选比,而是和之前的自己比。

策略梯度更新

有了奖励函数,接下来就是标准的策略梯度优化。论文采用了类似 GRPO 的框架。

对于每个训练样本 ,采样 个新 context ,并分别评估。

优势函数(advantage)的计算如下(Eq. 9):

即对 K 个样本的奖励做归一化。这样做有两个好处:

● 零均值归一化让好的修改获得正优势,差的修改获得负优势

● 除以标准差让不同难度的样本有可比的梯度大小

最终的策略梯度损失为(Eq. 10):

其中:

● 是重要性采样比率

● 是 PPO 的 clip 范围

● 是与参考策略 的 KL 散度正则项

为什么用 GRPO 式的框架而不是标准 PPO?PPO 需要一个独立的 value network 来估计基线,而 GRPO 直接用采样均值作为基线,省去了 value network 的训练开销。在 LSE 的场景中,每次评估本身就很贵(需要在验证集上跑 Action Model),所以减少额外网络的开销是务实的选择。

训练数据的生成

训练 LSE 需要大量的 四元组。这些数据如何获取?

论文采用的是在线 RL的方式:

  1. 从当前策略 出发,运行几轮树搜索进化,收集进化过程中产生的所有 对

  2. 对每个 ,用当前策略采样 K 个新 context

  3. 评估每个新 context 的得分,计算 improvement reward

  4. 用这些数据做一步策略梯度更新

  5. 重复

训练流程的巧妙之处:注意到训练数据的 并非随机的 —— 它们来自实际的进化过程。这意味着训练分布与测试分布是匹配的。模型不是在随机 context 上学改进,而是在自己实际会遇到的 context上学改进。这种"on-policy"特性对 RL 训练至关重要。

本章小结:第 3 章分三步展开了 LSE 的完整技术方案。3.1 形式化了测试时跨集自进化问题:Self-Evolving Policy 观察 Action Model 的表现,迭代改写 context 以提升性能。3.2 引入树搜索来组织进化过程,用 UCB 算法平衡探索与利用,避免贪心策略的局部最优和不可逆性。3.3 是核心创新 —— 将多步进化简化为单步 RL 训练,用 improvement-based reward(前后分数差)作为奖励信号,配合 GRPO 式的策略梯度更新。这一设计既降低了信用分配的难度和梯度方差,又保持了 on-policy 的训练分布匹配。整套方案在概念上简洁、在实现上务实。

4 Experiments

4B 小模型如何吊打 GPT-5?数据说话。

4.1 Experimental Setup(实验设置)

两个任务、多组 baseline、严谨的评估协议。

评估任务

论文选择了两个差异较大的任务来验证 LSE 的通用性:

任务一:BIRD(Text-to-SQL)

● 给定自然语言问题和数据库 schema,生成 SQL 查询

● 评估指标:执行准确率(execution accuracy),即生成的 SQL 执行结果是否与 ground truth 一致

● 这是一个结构化生成任务,对 context 中的指令和策略非常敏感

任务二:MMLU-Redux(多选题问答)

● 涵盖多个学科的多选题

● 评估指标:答案准确率

● 这是一个知识推理任务,测试 LSE 在不同类型问题上的泛化能力

为什么选这两个任务?它们代表了两种很不同的场景:BIRD 是结构化输出(生成代码),MMLU-Redux 是非结构化推理(选择题)。如果 LSE 在两个任务上都有效,就说明它不是针对某种特定任务的 trick,而是一种通用的自进化能力。

数据划分

论文对数据集做了精心的划分(详见 Table 4):

数据集训练 RL 用的验证集最终报告结果的测试集
BIRDtrain-validation: 346 样本held-out validation: 488 样本
MMLU-Reduxvalidation: 500 样本(采样)test: 3000 样本

Baseline 方法

论文对比了多类方法,覆盖面很广:

直接推理(无进化):

Zero-shot:只给任务描述,不做任何进化

Few-shot:在 context 中加入少量人工挑选的示例

Prompt 优化方法:

GEPA:基于进化算法的 prompt 优化

TextGrad:基于文本"梯度"的 prompt 优化

Intra-episode 方法:

Best-of-N:对每个问题生成 N 个答案取最好

Self-Correction(SC):让模型反思并修正自己的输出

不同 Self-Evolving Policy 的对比:

● 使用GPT-5Claude Sonnet 4.5Qwen2.5-3B-Instruct(未训练)作为 Self-Evolving Policy

● 使用LSE 训练后的 Qwen2.5-3B-Instruct作为 Self-Evolving Policy

实验设计的亮点:通过固定 Action Model、只变换 Self-Evolving Policy,论文能精确隔离"自进化能力"这一变量。GPT-5 和 Claude Sonnet 4.5 代表了最强的通用推理能力,如果一个经过 LSE 训练的 4B 小模型能超过它们,就有力说明了"专门训练自进化"比"通用推理能力"更重要。

Action Model 选择

● BIRD 任务:使用Qwen2.5-Coder-7B-Instruct作为 Action Model

● MMLU-Redux 任务:使用Qwen2.5-7B-Instruct作为 Action Model

进化轮数统一为10 轮

4.2 Main Results(主要结果)

4B 打败 GPT-5,不是标题党,是实验数据。

BIRD(Text-to-SQL)结果

论文 Table 1 给出了完整的对比结果。核心发现:

结论一:LSE 训练的 4B 模型超越了所有 baseline,包括 GPT-5 和 Claude Sonnet 4.5。

● Zero-shot baseline:约 53% 准确率

● GPT-5 作为 Self-Evolving Policy:约 61% 准确率

● Claude Sonnet 4.5 作为 Self-Evolving Policy:约 59% 准确率

● GEPA(使用 GPT-5):约 58% 准确率

LSE(4B 模型):约 64% 准确率—— 最高

几个值得注意的细节:

未训练的 Qwen2.5-3B-Instruct作为 Self-Evolving Policy 效果很差,说明自进化能力不是小模型天生具备的

GEPA 和 TextGrad虽然使用了 GPT-5 作为驱动,但表现仍不如 LSE,说明"方法论"比"模型大小"更重要

● LSE 的优势在多轮进化后更加明显 —— 第 1-2 轮大家差距不大,但 LSE 在后续轮次持续改进,而其他方法趋于饱和

MMLU-Redux(多选题)结果

论文 Table 2 展示了 MMLU-Redux 的结果。趋势与 BIRD 一致:

结论二:在知识推理任务上,LSE 同样大幅领先。

● Zero-shot baseline:约 68% 准确率

● GPT-5 作为 Self-Evolving Policy:约 72% 准确率

LSE(4B 模型):约 75% 准确率—— 同样是最高

MMLU-Redux 上进化带来的提升幅度为什么没 BIRD 大?BIRD 是一个 context 敏感度很高的任务 —— SQL 生成严重依赖 prompt 中的指令和示例。而 MMLU-Redux 更依赖模型的内在知识,context 改进的边际收益相对较小。但即便如此,LSE 仍然带来了显著提升,说明即使在知识密集型任务上,好的 context 也能引导模型更有效地运用已有知识。

与 Intra-episode 方法的组合

论文还验证了 LSE 与 intra-episode 方法的叠加效果

结论三:LSE + Best-of-N 或 LSE + Self-Correction 的组合效果优于单独使用任何一种方法。

这验证了 3.1 节提出的"正交性"假设 —— inter-episode 的 context 优化和 intra-episode 的单次推理优化可以互补,不存在此消彼长的关系。

迁移性实验

论文 Table 3 展示了一个令人惊喜的结果 ——LSE 训练的 Self-Evolving Policy 可以迁移到其他 Action Model

结论四:用 Qwen2.5-Coder-7B 作为 Action Model 训练的 LSE 策略,可以直接迁移到其他模型上使用。

● 在 BIRD 上,LSE 策略成功引导了与训练时不同的模型(包括不同规模的模型),都取得了改进

● 这说明 LSE 学到的不是特定于某个模型的 trick,而是一种通用的自进化策略—— 比如"如何分析失败案例""如何提炼有效的指令"等

迁移性为什么重要?在实际应用中,Action Model 可能是一个昂贵的 API(如 GPT-5),不可能在上面做 RL 训练。但如果可以在一个小模型上训练 Self-Evolving Policy,然后迁移到大模型上使用,这就大大降低了 LSE 的部署门槛。

4.3 Analysis(消融分析)

每个设计选择都不是凭空拍脑袋的。消融实验一一验证。

论文做了非常全面的消融分析,涵盖了四个关键设计决策。

消融一:RL 训练的效果

对比了三种 Self-Evolving Policy:

未训练的 Qwen2.5-3B-Instruct(零基线)

SFT 训练:用 GPT-5 的成功进化轨迹做监督微调

LSE(RL 训练)

发现:RL 训练 > SFT 训练 >> 未训练。SFT 比不训练好很多,说明自进化确实是一种可学习的技能。但 RL 比 SFT 还好,说明探索性学习(RL)比模仿学习(SFT)更适合自进化任务 —— 因为 SFT 只能模仿成功案例,而 RL 能从失败中学习。

消融二:Improvement-based Reward vs Absolute Reward

对比了两种奖励设计:

Absolute reward

Improvement reward

发现:Improvement reward 显著优于 absolute reward。这验证了 3.3 节的理论分析 —— absolute reward 的梯度信号太弱(因为大部分方差来自与当前动作无关的"基线"),而 improvement reward 通过减去前一步分数有效降低了方差,让模型能更清晰地学到"什么样的修改是好的"。

消融三:树搜索 vs 链式进化

对比了两种进化结构:

Chain(链式):每轮只有一条路径,贪心推进

Tree(树式):UCB 选择节点,支持回溯和分支

发现:树搜索在多轮进化后显著优于链式进化。前 2-3 轮两者差距不大(因为探索空间还小),但从第 4 轮开始,链式进化趋于饱和甚至退化,而树搜索持续改进。这说明回溯和探索能力在中后期至关重要 —— 链式进化一旦走入死胡同就无法回头,而树搜索可以回到之前的高分节点重新出发。

消融四:UCB 参数的影响

探索系数 控制着探索与利用的平衡。论文测试了不同的 值:

● (纯利用,总是选最高分节点)

● (中等探索)

● (较强探索)

发现:适度的探索( 附近)效果最好。 退化为贪心,容易陷入局部最优。 太大则过度探索,浪费预算在低分节点上。这与 bandit 问题的经典结论一致。

每轮进化的准确率变化

Figure 3 展示了不同方法在 10 轮进化中的准确率变化曲线:

LSE:持续稳定上升,到第 10 轮仍有改进空间

GPT-5 / Claude Sonnet 4.5:初期上升较快,但到第 4-5 轮后基本饱和

未训练的小模型:几乎没有提升,甚至可能退化

关键洞察:LSE 的优势不在于单轮改进幅度更大,而在于持续改进的能力。大模型(GPT-5等)凭借强大的推理能力可以在前几轮做出不错的修改,但很快陷入瓶颈。LSE 训练的小模型虽然单轮改进可能不如大模型,但它能避免无效修改和退化,因此能在更多轮次中持续积累改进。

MMLU-Redux 上的补充消融

论文在 MMLU-Redux 上也做了类似的消融分析,结论与 BIRD 一致:

● RL 训练 > SFT > 无训练

● Improvement reward > Absolute reward

● 树搜索 > 链式进化

这说明 LSE 的设计选择在不同任务类型上都是有效的,具有良好的通用性。

本章小结:实验部分全面验证了 LSE 的有效性。主要发现包括:1)LSE 训练的 4B 模型在 BIRD 和 MMLU-Redux 两个任务上均超越了 GPT-5 和 Claude Sonnet 4.5 驱动的自进化策略;2)LSE 与 intra-episode 方法(Best-of-N、Self-Correction)正交互补;3)训练好的 Self-Evolving Policy 可迁移到其他 Action Model;4)消融分析验证了每个设计决策(RL 训练、improvement reward、树搜索、UCB 探索)的必要性和有效性。尤其值得注意的是,LSE 的核心优势不是单轮改进幅度,而是"持续改进而不退化"的能力。

5 Conclusion

把"自我进化"变成一项可训练的技能,这可能是通往真正自适应 AI 的一小步。

核心贡献回顾

LSE 提出了一个明确的主张:

自我进化不应该被视为 LLM 的"天赋",而应该被视为一项需要专门训练的技能。通过将测试时跨集自进化形式化为 RL 问题,LSE 证明了一个仅 4B 参数的小模型,经过专门训练后,可以成为比 GPT-5 和 Claude Sonnet 4.5 更优秀的自进化策略。

这个结论的深层含义在于:

能力分离:"解题能力"和"自我改进能力"是两种不同的能力。一个模型可能解题很强但自我改进很差(如未训练的小模型),也可能自我改进很强但解题能力一般(如 LSE 训练后的小模型)

小模型的新可能:不需要用最大的模型来做所有事。可以用小模型训练专门的"元认知"技能,然后引导更大的模型

迁移性的价值:训练好的自进化策略可以跨模型复用,降低了实际部署的门槛

局限性与未来方向

论文虽然没有专门设立 Limitations 章节,但从技术方案中可以识别出几个潜在的局限:

可识别的局限性:

  1. 依赖可验证的评估指标:LSE 需要清晰的评分函数来计算奖励。对于开放式生成任务(如创意写作、对话),如何定义奖励是一个挑战

  2. 评估计算开销大:每轮进化都需要在验证集上完整跑一遍 Action Model,10 轮进化意味着 10 倍的推理开销

  3. 任务范围还有限:目前只验证了 Text-to-SQL 和多选题,对更复杂的任务(如多轮对话、长文本生成)的效果有待验证

  4. 单步 RL 的理论边界未明确:单步简化在实验中效果很好,但理论上是否存在它无法解决的场景(如需要长期规划的进化)还不清楚

潜在的未来方向包括:

扩展到更多任务类型:代码生成、数学推理、agentic 任务等

结合梯度更新:将 prompt-based 和 gradient-based 的自进化结合,同时改 context 和参数

更高效的探索策略:超越 UCB 的更智能的树搜索算法

元学习角度:训练一个能跨任务迁移的通用自进化策略

● ● ●

写在最后

LSE 这篇工作给我的最大感受是:它把一个听起来很宏大的愿景(“让 AI 学会自我进化”)落地成了一个工程上可操作的方案。

技术上,每一步都不算革命性创新 —— 单步 RL、UCB 树搜索、improvement-based reward,都是现有工具的巧妙组合。但将"自进化"视为一个可训练的 RL 问题这个 insight 本身非常有价值。它告诉我们:不要指望一个通用模型自然地拥有所有元认知能力,这些能力本身也需要专门的训练信号。

从更宏观的角度看,LSE 可能代表了一个方向:不是训练一个无所不能的巨型模型,而是训练一组各司其职的专业化小模型—— 一个负责解题,一个负责优化,可能还有一个负责评估。这种"分工协作"的范式,可能比纯粹的 scaling up 更务实、更高效。

当然,现在谈"真正的自我进化"还早 —— LSE 仍然需要明确的评估指标、需要人类定义的任务边界。但作为"让 AI 在部署后持续变强"的第一步,这篇工作走得很稳当。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 1:54:28

学长提醒|2026 上半年软考关键节点 + 冲刺攻略,速码!

各位正在备考软考的同学注意啦!4 月一到,上半年软考报名即将全面截止,距离 5 月考试也只剩不到两个月,时间紧、节点多,千万别错过关键步骤,学长这就把所有重要信息一次性整理清楚,帮大家稳稳上岸…

作者头像 李华