大模型“自我进化”入门到精通，看这篇保姆级论文拆解就够了！-平芜编程栈

这篇论文来自Mila（蒙特利尔大学）和Snowflake的联合团队，一作 Xiaoyin Chen，通讯作者 Canwen Xu。论文发布于 2026 年 3 月，arXiv 编号 2603.18620。

研究聚焦的问题很直接：LLM 训练完成后，部署阶段就"定型"了。无论它在某个领域解了多少题、积累了多少经验，context 一清空，一切归零。这就像一个棋手每盘棋结束后都会失忆 —— 显然不合理。

围绕"测试时自我进化（test-time self-evolution）“这个方向，已有不少工作尝试让模型在部署后持续改进自身的 prompt 或 context。但这些方法有一个共同的"先天缺陷”：它们完全依赖模型自身的推理能力来分析反馈、提出改进，却从未专门训练过模型做这件事。

LSE 的核心思路是：既然"自我进化"本质上是一个推理任务，那就把它当作一项可学习的技能来训练。具体做法是将多步演化问题简化为单步 RL 目标，用"编辑前后性能差（improvement-based reward）"作为奖励信号；推理时再结合树搜索（tree-guided evolution）进行多轮迭代。

实验结果颇具冲击力：一个仅4B 参数的模型，经过 LSE 训练后，在 Text-to-SQL（BIRD）和通用问答（MMLU-Redux）两个任务上，超过了用 GPT-5 和 Claude Sonnet 4.5 驱动的自进化策略，也优于 GEPA、TextGrad 等 prompt 优化方法。而且，这个训练好的进化策略还能迁移到其他模型上使用，无需额外训练。

从技术视角看，这篇工作的亮点在于：1）将 self-evolution 形式化为一个 RL 问题并给出了简洁的训练范式；2）improvement-based reward 的设计有理论支撑且实验验证清晰；3）UCB 树搜索在 context 空间中的探索机制设计巧妙。论文写作规范，实验设计合理，消融分析到位，整体完成度较高，值得细读。

● ● ●

1 Introduction

训练结束就"定型"？LLM 缺少的不是能力，而是一种持续进化的机制。

论文开篇从人类智能的核心特征说起：适应性（adaptability）。

一个棋手通过复盘来提升棋力，一个程序员在日复一日的工作中逐渐熟悉代码库。这两个例子有一个共同点 ——经验在积累，行为在调整。

当前 LLM 的训练流程其实也有类似的动态过程。尤其是后训练阶段（post-training），通过 RL 在模型自己生成的数据上进行优化。但问题在于：

训练一旦结束，学习就停止了。部署后的 LLM 不管解了多少同领域的问题，都用同一套策略应对。context 一重置，之前积累的所有经验全部丢失。

这种"静态部署"与"动态适应"之间的鸿沟，催生了测试时自进化系统（test-time self-evolving systems）的研究方向。

自进化的两个维度

论文从两个维度梳理了自进化的研究版图：

维度一：如何更新策略？

●基于梯度（gradient-based）：直接修改模型参数

●基于 prompt（prompt-based）：保持参数冻结，只改写模型的 context

维度二：何时更新策略？

●Intra-episode（单集内进化）：在同一个问题上反复尝试、逐步改进。比如 Reflexion 让模型反思失败并重试，SCoRe 通过 RL 训练自纠正能力，TTRL 在测试时直接做 RL。这类方法用额外计算换取单个问题上的准确率提升，但知识不跨问题迁移。

●Inter-episode（跨集进化）：在完成一批问题后更新策略，并将改进应用到新问题上。这类方法提取的是可迁移的知识。

LSE 聚焦的是inter-episode、prompt-based的自进化：模型观察自己在一批问题上的表现，然后改写自己的 context，以期在下一批问题上做得更好。

现有方法的"先天不足"

在这个方向上，已有不少探索：

●自动 prompt 优化：DSPy、GEPA、TextGrad 等，用自然语言反馈迭代修改 prompt

●自指涉更新（self-referential updates）：ExpeL 从成功/失败轨迹中提取教训，PromptBreeder 通过变异和交叉算子进化 prompt，ADAS 和 Darwin Godel Machine 更进一步，递归地重新设计自进化策略本身

●Agentic 记忆系统：Voyager 在 Minecraft 中积累可复用的技能库，MemGen 和 Mem0 维护跨 episode 的记忆存储

但这些方法都有一个共性问题：

它们完全依赖 LLM内在的推理能力来分析反馈、提出改进方案。模型从未被专门训练去做"自我改进"这件事。

LSE 的核心洞察

论文在这里提出了一个关键论点：

自进化（self-evolution）是一个与其他推理任务截然不同的推理挑战。它本质上具有 RL 问题的结构：模型需要判断当前 context 的哪些部分有帮助、哪些有害（credit assignment），预判修改后会如何影响下游行为（gradient estimation），并在"改良已有方案"和"尝试全新方向"之间做权衡（exploration vs. exploitation）。

为什么说自进化是一个独特的推理挑战？在常规推理任务中，模型面对的是"给定输入，产生正确输出"。而在自进化中，模型要做的是"分析一系列输入-输出-反馈，然后修改自己的指令以提升未来表现"。这需要元认知能力 —— 不是解题，而是"学会如何更好地解题"。一个 RL 优化器靠专门的算法来做信用分配、梯度估计和探索-利用平衡，而自进化模型必须仅凭自然语言推理来隐式完成这三件事。

基于这一洞察，作者提出了Learning to Self-Evolve（LSE）：

LSE 是一个 RL 框架，显式训练 LLM 成为一个高效的自进化策略。训练时，将多步演化简化为单步：模型接收当前 context 和性能摘要，生成改进后的 context。每次编辑的奖励是下游性能的提升量（improvement），而非绝对分数。推理时，通过树引导的演化循环（tree-guided evolution loop）支持探索和回溯。

主要贡献

论文总结了三个贡献：

形式化了测试时跨集自进化，并通过 prompt-based 更新 + 树搜索将其落地实现（3.1, 3.2 节）
提出 LSE 框架，用 improvement-based reward 显式训练自进化策略（3.3 节）
实验验证：4B 模型经 LSE 训练后超越 GPT-5、Claude Sonnet 4.5 等更大模型和 GEPA、TextGrad 等优化方法，且可迁移引导其他模型（第 4 节）

Figure 1: Overview of Learning to Self-Evolve (LSE). Left: Tree-guided self-evolution at test time. Upper Confidence Bound (UCB) selection chooses a context from the evolution tree; the action model generates outputs for a new batch of problems; the self-evolving policy receives the performance summary and proposes a revised context. Right: LSE trains the self-evolving policy via RL with an improvement-based reward computed as the difference between post-edit and pre-edit performance.

本章小结：本章指出了当前 LLM 部署的核心缺陷 —— 训练后即静态，无法利用测试时积累的经验持续进化。现有的 test-time self-evolution 方法依赖模型内在的推理能力，从未专门训练这项技能。LSE 将自进化视为一个可学习的 RL 问题，通过单步 improvement-based reward 训练 + 树搜索推理，让一个 4B 小模型超越了 GPT-5 级别的 frontier model。这为"把自进化当作一项独立技能来训练"提供了有力证据。

● ● ●

3 Method

把"自我进化"拆解为三个问题：怎么形式化？怎么搜索？怎么训练？

这一章是论文的核心技术部分，分三个小节层层递进：

●3.1：定义问题 —— 什么是测试时跨集自进化？

●3.2：设计推理算法 —— 如何用树搜索实现 prompt-based 的自进化？

●3.3：训练自进化策略 —— 如何用 RL 让模型学会高效地自我改进？

3.1 Test-Time Inter-Episode Evolution（测试时跨集进化）

先把问题说清楚：什么是"进化"？"进化"什么？怎么衡量"进化"好不好？

基本设定

论文首先定义了一个清晰的系统架构。整个自进化系统由两个模型组成：

●Action Model（行动模型）：负责解决实际任务。比如在 Text-to-SQL 场景中，它接收自然语言问题并生成 SQL 查询。Action Model 的参数始终冻结，不做任何修改。

●Self-Evolving Policy（自进化策略）：负责改进 Action Model 的 context。它观察 Action Model 的表现，然后生成新的 context 来帮助 Action Model 做得更好。

为什么要分成两个模型？直觉上，让一个模型既解题又改进自己似乎更简洁。但分离有明确的好处：1）Action Model 可以是任意模型（包括 API-only 的闭源模型），Self-Evolving Policy 只需要是一个相对小的模型；2）训练目标更纯粹 —— Self-Evolving Policy 只需要学"如何改 context"这一件事；3）训练好的 Self-Evolving Policy 可以迁移到不同的 Action Model 上。

Context 的定义

Context是注入到 Action Model 的系统 prompt 中的一段文本。它可以包含：

●任务指令（task instructions）

●策略/技巧（tips and strategies）

●少样本示例（few-shot examples）

● 或任何对 Action Model 有帮助的信息

形式上，给定一个测试样本，Action Model 在 context 下生成输出，然后用评估函数打分。

进化循环

自进化过程被组织为**多轮（multi-round）**的迭代循环。每一轮的流程如下：

评估：用当前 context 让 Action Model 在一批验证样本上运行，收集结果
反馈摘要：将评估结果汇总为一个性能摘要（performance summary），包含准确率等统计信息，以及成功/失败案例的样本
进化：Self-Evolving Policy 根据当前 context 和摘要，生成新的 context
重复：用进入下一轮

用公式表示就是（对应论文 Eq. 1-3）：

核心目标：找到一个 context *，*使得 Action Model 在测试集上的平均得分最大化（Eq. 4）：

性能摘要的具体内容

论文在附录 B 给出了摘要的详细格式。它包含：

● 当前准确率和之前几轮的准确率变化趋势

● 随机采样的成功案例和失败案例（各若干个）

● 每个案例包括输入、Action Model 的输出、正确答案（如果可用）

为什么用摘要而不是直接给全部数据？两个原因：1）context 窗口有限，不可能塞下所有评估结果；2）摘要本身就是一种信息压缩，强迫系统关注最重要的模式而非陷入细节。

3.2 Prompt-Based Evolution with Tree Search（基于 Prompt 的树搜索进化）

如果每次只沿一条路走，很容易陷入局部最优。树搜索让进化有了"回溯"和"探索"的能力。

朴素方案的问题

最简单的自进化方式是贪心链式进化（greedy chain evolution）：每轮只保留一个 context，逐步改进。但这有两个严重问题：

不可逆性：一次坏的修改会覆盖掉之前的好 context，而且后续很难恢复
局部最优：贪心策略容易陷入 context 空间中的局部最优，无法跳出来探索其他方向

树结构的引入

为了解决这两个问题，LSE 将进化过程组织为一棵树（tree）：

●根节点：初始 context （通常是一个简单的任务描述）

●每条边：代表一次 context 修改操作

●每个节点：代表一个 context 版本及其评估结果

每一轮进化不再是线性链式的，而是：

从树中选择一个节点作为出发点
从这个节点生成一个或多个子节点（新 context）
评估新 context 的表现
将结果挂回树上

这样就自然获得了两个关键能力：

●回溯（backtracking）：如果当前方向走不通，可以回到之前的节点重新探索

●分支探索（branching）：同一个节点可以生成多个不同的子节点，探索不同的改进方向

UCB 节点选择策略

关键问题来了：每一轮应该选择哪个节点来扩展？

这其实是一个经典的探索-利用权衡（exploration-exploitation trade-off）问题。论文借鉴了UCB（Upper Confidence Bound）算法来做节点选择。

每个节点的 UCB 分数计算如下（对应论文 Eq. 5）：

其中：

● ：节点的平均价值，衡量"利用"（exploitation）—— 从这个节点出发，历史上产生了多好的后代？

● ：探索奖励（exploration bonus）—— 是总访问次数，是节点的访问次数。访问越少，探索奖励越大

● ：探索系数，控制探索与利用的权衡

价值函数的设计

节点的平均价值怎么算？论文设计了一个混合公式（Eq. 6）：

● 第一项：节点自身的评估分数（当前 context 的直接表现）

● 第二项：子节点中的最佳价值（后代的潜力）

● ：平衡系数

为什么要混合自身分数和后代分数？纯粹看自身分数（）会导致总是从当前最好的节点出发，这又退化成了贪心。纯粹看后代潜力（）则忽略了当前节点本身的质量。混合两者既鼓励从高分节点出发（因为高分 context 更可能产出更好的后代），又不完全忽略那些自身分数不高但后代表现出色的"潜力股"。

完整的树搜索进化算法

把上面的组件组合起来，每一轮的完整流程是（对应论文 Algorithm 1）：

Algorithm 1：Prompt-based Evolution with Tree Search

输入：初始 context 、Self-Evolving Policy 、Action Model 、进化轮数

初始化树，根节点为
评估在验证集上的表现，得到和摘要
For：

a. 用 UCB 公式选择一个节点

b. 构造摘要

c. 调用 Self-Evolving Policy 生成新 context：

d. 用 Action Model 在验证集上评估

e. 将作为的子节点挂到树上

f. 反向传播更新路径上所有节点的价值

返回树中得分最高的 context

树搜索与 MCTS 有什么关系？形式上很相似 —— 都用 UCB 做节点选择，都有反向传播更新价值。但区别在于：传统 MCTS 在一个已知的动作空间上搜索（如围棋的落子位置），而 LSE 的"动作"是用自然语言改写 context，动作空间是无限且连续的。此外，传统 MCTS 通常用 rollout 来估计价值，而 LSE 直接用真实评估分数。所以 LSE 的树搜索更像是一个在 context 空间中做 beam search + 回溯的进化算法。

3.3 Learning to Self-Evolve（学习自进化）

前面定义了"做什么"和"怎么搜索"，这一节解决最核心的问题：怎么让**成为一个好的自进化策略？

核心挑战：多步 vs 单步

自进化本质上是一个序贯决策（sequential decision making）问题：每一步的 context 修改都会影响后续所有步骤。理论上应该用多步 RL（如 PPO 在 MDP 上的标准做法）来优化。

但多步 RL 在这里面临严重的实际困难：

信用分配困难：最终的 context 好不好，是多轮修改共同作用的结果。哪一步修改贡献了多少？极难判断。
高方差：每一步都需要完整评估（让 Action Model 在整个验证集上跑一遍），评估本身就有随机性，多步累积后方差爆炸。
计算代价高：每一步训练都需要完整的"生成新 context → 评估 → 计算奖励"循环，T 步进化意味着 T 倍的开销。

关键简化：单步 RL

论文提出了一个优雅的简化：将多步进化问题分解为多个独立的单步优化问题。

具体来说，不去优化整个 T 步序列的累计奖励，而是训练让每一步修改都尽可能好。

形式上，对于每一步，的输入是（当前 context 和性能摘要），输出是新 context 。优化目标是最大化（Eq. 7）：

其中是单步奖励。

为什么单步就够了？直觉上，如果每一步都在变好，那整个序列就在变好。虽然这不是严格最优的（因为忽略了长期规划），但在实际中足够好 —— 因为树搜索机制已经提供了全局探索的能力。单步 RL 负责"每一步修改都有质量"，树搜索负责"全局路径选择"，两者各司其职。

奖励设计：Improvement-based Reward

奖励函数的设计是 LSE 的另一个关键创新。

最直觉的做法是用新 context 的绝对分数作为奖励：。但论文指出这有严重问题：

绝对分数的问题：如果当前 context 已经很好（比如准确率 90%），那新 context 的分数也很可能在 90% 左右。对于 RL 来说，所有动作的奖励都差不多，梯度信号极弱 —— 模型学不到什么有用的东西。本质上，绝对分数包含了太多与当前"动作"（context 修改）无关的方差。

因此，LSE 采用improvement-based reward（基于提升量的奖励）（Eq. 8）：

即新 context 的分数减去旧 context 的分数。这个设计简单却深刻：

● 只关注边际改进，过滤掉了与当前动作无关的"基线"方差

● 正奖励意味着改进成功，负奖励意味着退步 —— 信号非常清晰

● 从统计角度看，本质上充当了一个控制变量（control variate），降低了梯度估计的方差

与 GRPO 的 baseline 设计对比：GRPO 用同一个 prompt 下多个采样的均值作为 baseline。LSE 的 improvement-based reward 则用前一步的分数作为 baseline。后者更自然地契合了"进化"的语义 —— 不是和其他候选比，而是和之前的自己比。

策略梯度更新

有了奖励函数，接下来就是标准的策略梯度优化。论文采用了类似 GRPO 的框架。

对于每个训练样本，采样个新 context ，并分别评估。

优势函数（advantage）的计算如下（Eq. 9）：

即对 K 个样本的奖励做归一化。这样做有两个好处：

● 零均值归一化让好的修改获得正优势，差的修改获得负优势

● 除以标准差让不同难度的样本有可比的梯度大小

最终的策略梯度损失为（Eq. 10）：

其中：

● 是重要性采样比率

● 是 PPO 的 clip 范围

● 是与参考策略的 KL 散度正则项

为什么用 GRPO 式的框架而不是标准 PPO？PPO 需要一个独立的 value network 来估计基线，而 GRPO 直接用采样均值作为基线，省去了 value network 的训练开销。在 LSE 的场景中，每次评估本身就很贵（需要在验证集上跑 Action Model），所以减少额外网络的开销是务实的选择。

训练数据的生成

训练 LSE 需要大量的四元组。这些数据如何获取？

论文采用的是在线 RL的方式：

从当前策略出发，运行几轮树搜索进化，收集进化过程中产生的所有对
对每个，用当前策略采样 K 个新 context
评估每个新 context 的得分，计算 improvement reward
用这些数据做一步策略梯度更新
重复

训练流程的巧妙之处：注意到训练数据的并非随机的 —— 它们来自实际的进化过程。这意味着训练分布与测试分布是匹配的。模型不是在随机 context 上学改进，而是在自己实际会遇到的 context上学改进。这种"on-policy"特性对 RL 训练至关重要。

本章小结：第 3 章分三步展开了 LSE 的完整技术方案。3.1 形式化了测试时跨集自进化问题：Self-Evolving Policy 观察 Action Model 的表现，迭代改写 context 以提升性能。3.2 引入树搜索来组织进化过程，用 UCB 算法平衡探索与利用，避免贪心策略的局部最优和不可逆性。3.3 是核心创新 —— 将多步进化简化为单步 RL 训练，用 improvement-based reward（前后分数差）作为奖励信号，配合 GRPO 式的策略梯度更新。这一设计既降低了信用分配的难度和梯度方差，又保持了 on-policy 的训练分布匹配。整套方案在概念上简洁、在实现上务实。

4 Experiments

4B 小模型如何吊打 GPT-5？数据说话。

4.1 Experimental Setup（实验设置）

两个任务、多组 baseline、严谨的评估协议。

评估任务

论文选择了两个差异较大的任务来验证 LSE 的通用性：

任务一：BIRD（Text-to-SQL）

● 给定自然语言问题和数据库 schema，生成 SQL 查询

● 评估指标：执行准确率（execution accuracy），即生成的 SQL 执行结果是否与 ground truth 一致

● 这是一个结构化生成任务，对 context 中的指令和策略非常敏感

任务二：MMLU-Redux（多选题问答）

● 涵盖多个学科的多选题

● 评估指标：答案准确率

● 这是一个知识推理任务，测试 LSE 在不同类型问题上的泛化能力

为什么选这两个任务？它们代表了两种很不同的场景：BIRD 是结构化输出（生成代码），MMLU-Redux 是非结构化推理（选择题）。如果 LSE 在两个任务上都有效，就说明它不是针对某种特定任务的 trick，而是一种通用的自进化能力。

数据划分

论文对数据集做了精心的划分（详见 Table 4）：

数据集	训练 RL 用的验证集	最终报告结果的测试集
BIRD	train-validation: 346 样本	held-out validation: 488 样本
MMLU-Redux	validation: 500 样本（采样）	test: 3000 样本

Baseline 方法

论文对比了多类方法，覆盖面很广：

直接推理（无进化）：

●Zero-shot：只给任务描述，不做任何进化

●Few-shot：在 context 中加入少量人工挑选的示例

Prompt 优化方法：

●GEPA：基于进化算法的 prompt 优化

●TextGrad：基于文本"梯度"的 prompt 优化

Intra-episode 方法：

●Best-of-N：对每个问题生成 N 个答案取最好

●Self-Correction（SC）：让模型反思并修正自己的输出

不同 Self-Evolving Policy 的对比：

● 使用GPT-5、Claude Sonnet 4.5、Qwen2.5-3B-Instruct（未训练）作为 Self-Evolving Policy

● 使用LSE 训练后的 Qwen2.5-3B-Instruct作为 Self-Evolving Policy

实验设计的亮点：通过固定 Action Model、只变换 Self-Evolving Policy，论文能精确隔离"自进化能力"这一变量。GPT-5 和 Claude Sonnet 4.5 代表了最强的通用推理能力，如果一个经过 LSE 训练的 4B 小模型能超过它们，就有力说明了"专门训练自进化"比"通用推理能力"更重要。

Action Model 选择

● BIRD 任务：使用Qwen2.5-Coder-7B-Instruct作为 Action Model

● MMLU-Redux 任务：使用Qwen2.5-7B-Instruct作为 Action Model

进化轮数统一为10 轮。

4.2 Main Results（主要结果）

4B 打败 GPT-5，不是标题党，是实验数据。

BIRD（Text-to-SQL）结果

论文 Table 1 给出了完整的对比结果。核心发现：

结论一：LSE 训练的 4B 模型超越了所有 baseline，包括 GPT-5 和 Claude Sonnet 4.5。

● Zero-shot baseline：约 53% 准确率

● GPT-5 作为 Self-Evolving Policy：约 61% 准确率

● Claude Sonnet 4.5 作为 Self-Evolving Policy：约 59% 准确率

● GEPA（使用 GPT-5）：约 58% 准确率

●LSE（4B 模型）：约 64% 准确率—— 最高

几个值得注意的细节：

●未训练的 Qwen2.5-3B-Instruct作为 Self-Evolving Policy 效果很差，说明自进化能力不是小模型天生具备的

●GEPA 和 TextGrad虽然使用了 GPT-5 作为驱动，但表现仍不如 LSE，说明"方法论"比"模型大小"更重要

● LSE 的优势在多轮进化后更加明显 —— 第 1-2 轮大家差距不大，但 LSE 在后续轮次持续改进，而其他方法趋于饱和

MMLU-Redux（多选题）结果

论文 Table 2 展示了 MMLU-Redux 的结果。趋势与 BIRD 一致：

结论二：在知识推理任务上，LSE 同样大幅领先。

● Zero-shot baseline：约 68% 准确率

● GPT-5 作为 Self-Evolving Policy：约 72% 准确率

●LSE（4B 模型）：约 75% 准确率—— 同样是最高

MMLU-Redux 上进化带来的提升幅度为什么没 BIRD 大？BIRD 是一个 context 敏感度很高的任务 —— SQL 生成严重依赖 prompt 中的指令和示例。而 MMLU-Redux 更依赖模型的内在知识，context 改进的边际收益相对较小。但即便如此，LSE 仍然带来了显著提升，说明即使在知识密集型任务上，好的 context 也能引导模型更有效地运用已有知识。

与 Intra-episode 方法的组合

论文还验证了 LSE 与 intra-episode 方法的叠加效果：

结论三：LSE + Best-of-N 或 LSE + Self-Correction 的组合效果优于单独使用任何一种方法。

这验证了 3.1 节提出的"正交性"假设 —— inter-episode 的 context 优化和 intra-episode 的单次推理优化可以互补，不存在此消彼长的关系。

迁移性实验

论文 Table 3 展示了一个令人惊喜的结果 ——LSE 训练的 Self-Evolving Policy 可以迁移到其他 Action Model：

结论四：用 Qwen2.5-Coder-7B 作为 Action Model 训练的 LSE 策略，可以直接迁移到其他模型上使用。

● 在 BIRD 上，LSE 策略成功引导了与训练时不同的模型（包括不同规模的模型），都取得了改进

● 这说明 LSE 学到的不是特定于某个模型的 trick，而是一种通用的自进化策略—— 比如"如何分析失败案例""如何提炼有效的指令"等

迁移性为什么重要？在实际应用中，Action Model 可能是一个昂贵的 API（如 GPT-5），不可能在上面做 RL 训练。但如果可以在一个小模型上训练 Self-Evolving Policy，然后迁移到大模型上使用，这就大大降低了 LSE 的部署门槛。

4.3 Analysis（消融分析）

每个设计选择都不是凭空拍脑袋的。消融实验一一验证。

论文做了非常全面的消融分析，涵盖了四个关键设计决策。

消融一：RL 训练的效果

对比了三种 Self-Evolving Policy：

●未训练的 Qwen2.5-3B-Instruct（零基线）

●SFT 训练：用 GPT-5 的成功进化轨迹做监督微调

●LSE（RL 训练）

发现：RL 训练 > SFT 训练 >> 未训练。SFT 比不训练好很多，说明自进化确实是一种可学习的技能。但 RL 比 SFT 还好，说明探索性学习（RL）比模仿学习（SFT）更适合自进化任务 —— 因为 SFT 只能模仿成功案例，而 RL 能从失败中学习。

消融二：Improvement-based Reward vs Absolute Reward

对比了两种奖励设计：

●Absolute reward：

●Improvement reward：

发现：Improvement reward 显著优于 absolute reward。这验证了 3.3 节的理论分析 —— absolute reward 的梯度信号太弱（因为大部分方差来自与当前动作无关的"基线"），而 improvement reward 通过减去前一步分数有效降低了方差，让模型能更清晰地学到"什么样的修改是好的"。

消融三：树搜索 vs 链式进化

对比了两种进化结构：

●Chain（链式）：每轮只有一条路径，贪心推进

●Tree（树式）：UCB 选择节点，支持回溯和分支

发现：树搜索在多轮进化后显著优于链式进化。前 2-3 轮两者差距不大（因为探索空间还小），但从第 4 轮开始，链式进化趋于饱和甚至退化，而树搜索持续改进。这说明回溯和探索能力在中后期至关重要 —— 链式进化一旦走入死胡同就无法回头，而树搜索可以回到之前的高分节点重新出发。

消融四：UCB 参数的影响

探索系数控制着探索与利用的平衡。论文测试了不同的值：

● （纯利用，总是选最高分节点）

● （中等探索）

● （较强探索）

发现：适度的探索（附近）效果最好。退化为贪心，容易陷入局部最优。太大则过度探索，浪费预算在低分节点上。这与 bandit 问题的经典结论一致。

每轮进化的准确率变化

Figure 3 展示了不同方法在 10 轮进化中的准确率变化曲线：

●LSE：持续稳定上升，到第 10 轮仍有改进空间

●GPT-5 / Claude Sonnet 4.5：初期上升较快，但到第 4-5 轮后基本饱和

●未训练的小模型：几乎没有提升，甚至可能退化

关键洞察：LSE 的优势不在于单轮改进幅度更大，而在于持续改进的能力。大模型（GPT-5等）凭借强大的推理能力可以在前几轮做出不错的修改，但很快陷入瓶颈。LSE 训练的小模型虽然单轮改进可能不如大模型，但它能避免无效修改和退化，因此能在更多轮次中持续积累改进。

MMLU-Redux 上的补充消融

论文在 MMLU-Redux 上也做了类似的消融分析，结论与 BIRD 一致：

● RL 训练 > SFT > 无训练

● Improvement reward > Absolute reward

● 树搜索 > 链式进化

这说明 LSE 的设计选择在不同任务类型上都是有效的，具有良好的通用性。

本章小结：实验部分全面验证了 LSE 的有效性。主要发现包括：1）LSE 训练的 4B 模型在 BIRD 和 MMLU-Redux 两个任务上均超越了 GPT-5 和 Claude Sonnet 4.5 驱动的自进化策略；2）LSE 与 intra-episode 方法（Best-of-N、Self-Correction）正交互补；3）训练好的 Self-Evolving Policy 可迁移到其他 Action Model；4）消融分析验证了每个设计决策（RL 训练、improvement reward、树搜索、UCB 探索）的必要性和有效性。尤其值得注意的是，LSE 的核心优势不是单轮改进幅度，而是"持续改进而不退化"的能力。

5 Conclusion

把"自我进化"变成一项可训练的技能，这可能是通往真正自适应 AI 的一小步。

核心贡献回顾

LSE 提出了一个明确的主张：

自我进化不应该被视为 LLM 的"天赋"，而应该被视为一项需要专门训练的技能。通过将测试时跨集自进化形式化为 RL 问题，LSE 证明了一个仅 4B 参数的小模型，经过专门训练后，可以成为比 GPT-5 和 Claude Sonnet 4.5 更优秀的自进化策略。

这个结论的深层含义在于：

●能力分离："解题能力"和"自我改进能力"是两种不同的能力。一个模型可能解题很强但自我改进很差（如未训练的小模型），也可能自我改进很强但解题能力一般（如 LSE 训练后的小模型）

●小模型的新可能：不需要用最大的模型来做所有事。可以用小模型训练专门的"元认知"技能，然后引导更大的模型

●迁移性的价值：训练好的自进化策略可以跨模型复用，降低了实际部署的门槛

局限性与未来方向

论文虽然没有专门设立 Limitations 章节，但从技术方案中可以识别出几个潜在的局限：

可识别的局限性：

依赖可验证的评估指标：LSE 需要清晰的评分函数来计算奖励。对于开放式生成任务（如创意写作、对话），如何定义奖励是一个挑战
评估计算开销大：每轮进化都需要在验证集上完整跑一遍 Action Model，10 轮进化意味着 10 倍的推理开销
任务范围还有限：目前只验证了 Text-to-SQL 和多选题，对更复杂的任务（如多轮对话、长文本生成）的效果有待验证
单步 RL 的理论边界未明确：单步简化在实验中效果很好，但理论上是否存在它无法解决的场景（如需要长期规划的进化）还不清楚

潜在的未来方向包括：

●扩展到更多任务类型：代码生成、数学推理、agentic 任务等

●结合梯度更新：将 prompt-based 和 gradient-based 的自进化结合，同时改 context 和参数

●更高效的探索策略：超越 UCB 的更智能的树搜索算法

●元学习角度：训练一个能跨任务迁移的通用自进化策略

● ● ●

写在最后

LSE 这篇工作给我的最大感受是：它把一个听起来很宏大的愿景（“让 AI 学会自我进化”）落地成了一个工程上可操作的方案。

技术上，每一步都不算革命性创新 —— 单步 RL、UCB 树搜索、improvement-based reward，都是现有工具的巧妙组合。但将"自进化"视为一个可训练的 RL 问题这个 insight 本身非常有价值。它告诉我们：不要指望一个通用模型自然地拥有所有元认知能力，这些能力本身也需要专门的训练信号。

从更宏观的角度看，LSE 可能代表了一个方向：不是训练一个无所不能的巨型模型，而是训练一组各司其职的专业化小模型—— 一个负责解题，一个负责优化，可能还有一个负责评估。这种"分工协作"的范式，可能比纯粹的 scaling up 更务实、更高效。

当然，现在谈"真正的自我进化"还早 —— LSE 仍然需要明确的评估指标、需要人类定义的任务边界。但作为"让 AI 在部署后持续变强"的第一步，这篇工作走得很稳当。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

1 Introduction

自进化的两个维度

现有方法的"先天不足"

LSE 的核心洞察

主要贡献

3 Method

3.1 Test-Time Inter-Episode Evolution（测试时跨集进化）

基本设定

Context 的定义

进化循环

性能摘要的具体内容

3.2 Prompt-Based Evolution with Tree Search（基于 Prompt 的树搜索进化）

朴素方案的问题

树结构的引入

UCB 节点选择策略

价值函数的设计

完整的树搜索进化算法

3.3 Learning to Self-Evolve（学习自进化）

核心挑战：多步 vs 单步

关键简化：单步 RL

奖励设计：Improvement-based Reward

策略梯度更新

训练数据的生成

4 Experiments

4.1 Experimental Setup（实验设置）

评估任务

数据划分

Baseline 方法

Action Model 选择

4.2 Main Results（主要结果）

BIRD（Text-to-SQL）结果

MMLU-Redux（多选题）结果

与 Intra-episode 方法的组合

迁移性实验

4.3 Analysis（消融分析）

消融一：RL 训练的效果

消融二：Improvement-based Reward vs Absolute Reward

消融三：树搜索 vs 链式进化

消融四：UCB 参数的影响

每轮进化的准确率变化

MMLU-Redux 上的补充消融

5 Conclusion

核心贡献回顾

局限性与未来方向

写在最后

学AI大模型的正确顺序，千万不要搞错了

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

收藏备用｜小白/程序员必看！Agentic AI时代，手把手教你构建高效可靠AI Agent

不用装软件！这款MicroPython浏览器 IDE :让你在手机上也能调试树莓派 Pico

学长提醒｜2026 上半年软考关键节点 + 冲刺攻略，速码！

短视频 SEO 优化能给企业带来什么好处_短视频 SEO 如何优化视频标题和描述

从零配置到出报告：手把手教你用Apipost完成一次完整的接口压力测试（附避坑点）

大厂vs.垂直玩家：电商AI视频工具怎么选？易元AI的“专注”才是护城河

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】