别再迷信大模型了！微软全新RL方法，让14B小模型“越级”挑战DeepSeek-R1，大海捞针轻松拿捏！-平芜编程栈

在当前大语言模型的发展中，长上下文推理能力的提升已成为关键研究方向。然而，构建具备高级长上下文推理能力的模型仍面临多重挑战。

首先，用于训练的理想问题需足够复杂以激发深度推理并支持从长上下文中动态检索关键信息，而且答案可验证。然而，满足这些条件的高质量长上下文数据极为稀缺。

其次，要提升长上下文性能，模型通常需在接近目标长度的上下文中训练。然而，将强化学习的 rollout 从短上下文（<1K token）扩展到128K以上，会带来巨大的计算与内存开销，在常规资源下难以实现。

第三，即便技术上可实现长上下文训练，单一任务类型的集中训练可能引发模型能力的失衡。

为此，微软联合上海交通大学等提出LoongRL，这是一种面向高级长上下文推理的数据驱动型强化学习方法，训练得到的LoongRL-14B得分为74.2，性能媲美 o3-mini（74.5）和 DeepSeek-R1（74.9）等规模更大的前沿模型；通过全部128K“大海捞针”测试，提升长上下文检索能力，且保持短上下文推理能力。

论文标题：
LOONGRL:REINFORCEMENT LEARNING FOR ADVANCEDREASONING OVER LONG CONTEXTS
论文链接：
https://arxiv.org/pdf/2510.19363

01方法

（1）数据集构建

图1 利用KeyChain方法构建数据流程图

研究团队从真实任务中选取整理好的高质量短上下文问答对 {oLi, oqi, oai}。首先，插入干扰文档，将每个样本扩展为长度为16K token的长输入 L′i。

随后，通过 KeyChain 方法随机插入多跳键值链（key-value chains），将原始三元组 {L′i, oqi, oai} 转换为 {Li, qi, ai}，其中原始问题 oqi被隐式嵌入到扩展后的键值序列 Li中，从而显著增加任务的推理难度。面对新问题 qi，模型必须首先追踪链条以恢复原始问题 oqi，然后在长上下文 Li上进行推理，生成正确答案 ai。

该构建方式确保强化学习训练聚焦于长上下文下的深度推理，而非记忆或浅层检索。

图 2 长上下文多跳问答任务中，使用与不使用通过KeyChain构建的数据进行强化学习的模型行为对比图

对比实验表明，模型在使用通过KeyChain构建的数据时展现出更优的推理行为：其推理过程呈现出一种涌现的“规划–检索–推理–复核”思维模式，各阶段职责分明，推理更为可靠，并能有效泛化至更长的上下文；相比之下，在不使用 KeyChain 数据时，模型的推理与检索过程相互混杂，通常缺乏明确的规划阶段，对检索结果也未能进行深入的推理整合，导致错误频发。图2中推理步骤以蓝色标记，检索步骤以橙色标记，直观体现了两种条件下思维路径的差异。

（2）长上下文强化学习

基于 KeyChain 构建的数据，研究团队提出了面向长上下文任务的强化学习方法，包括奖励设计、数据混合与多阶段训练策略。

1）GRPO

训练采用 GRPO算法。具体而言，对于数据集D中的每个问题 q、其对应的长上下文 L以及真实答案a，GRPO 首先从旧策略πθold中采样一组 rollout 轨迹{o1, o2, · · · , oG}，然后通过最大化以下目标函数来优化策略πθ ：

其中，超参数 ε和 β分别控制重要性采样比率的裁剪范围以及KL散度惩罚项的权重。

每个 rollout 轨迹的优势估计值 Ai,t基于一组奖励 {r1,r2,…,rG}计算得到：

其中，ri为轨迹 oi的奖励，通过基于规则的验证器进行评估，以缓解奖励博弈问题。

2)基于规则的奖励机制

首先训练过程中，在prompt中明确要求模型将其最终答案输出在\boxed{ } 标签内，以确保答案可被清晰提取。

然后，对框内答案采用双向子字符串精确匹配策略。对于每条 rollout 轨迹 oi,将根据提取出的最终答案yans与真实答案a 的匹配情况获得一个二值准确率奖励 ri∈{0,1}，即：若 yans包含 a作为子字符串，或 a包含 yans作为子字符串，则奖励为 1，否则为 0。形式化地，奖励计算方式如下：

3)训练方案

为实现通过强化学习提升模型的长上下文推理能力的同时保留保留模型在一般短上下文任务上的推理能力的训练目标，我们构建了一个混合数据集，训练数据的来源、输入上下文长度及任务难度如表1所示，并采用多阶段强化学习训练策略。

表1 LoongRL 训练所用混合数据集的构成与统计信息

预热阶段（Warm-up）：首先在不包含通过 KeyChain构建数据的混合数据集上训练一个 epoch。该阶段有助于模型在较简单任务上提升检索与基础推理能力，确保后续训练的稳定性。
第一阶段（引入 KeyChain 增强）：在预热后引入 KeyChain 构建的数据，逐步提升任务难度。此阶段促使模型学会有效规划、从干扰密集的长上下文中精准检索信息，并将证据整合为连贯的推理链。
第二阶段（聚焦难题训练）：在第一阶段结束后，使用当前最优检查点对每个样本生成八条 rollout 轨迹。若某样本在所有轨迹中均被正确解答，则将其从训练集中剔除，仅保留约 30–40% 的困难样本子集。
后续强化学习仅在此子集上进行，集中优化模型对难题的处理能力，提升训练效率，同时避免过拟合现象。

02评估

实验团队对 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 两个模型进行了 LoongRL 训练，并与多个前沿大模型进行对比，结果如表2和表3所示。对其进行分析，得出以下四个关键结论：

表 2 LoongRL 与前沿大模型在长上下文推理及通用短上下文任务上的性能对比。

表 3 LoongRL 与前沿大模型在长上下文推理任务上的性能对比

（1）小规模模型实现强竞争力的长上下文推理能力

如表2所示LoongRL 使 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 的平均性能分别提升了 23.5% 和 21.1%。相比之下，R1-distilled Qwen 系列模型在 14B 规模下仅提升 11.8%，7B 规模下性能反而下降 17.7%；QwenLong-L1-32B 的平均提升也仅有 4.6%，效果有限。值得注意的是，LoongRL-7B 的表现甚至以 +2.3% 的优势超越了 QwenLong-L1-32B，充分证明：通过我们的方法，小规模模型亦可超越大规模基线模型。

表3汇总了 LoongRL 与当前先进模型在长上下文推理任务上的性能对比。LoongRL 在显著更小的模型规模下实现了前沿水平的长上下文推理能力。在 14B 规模下，LoongRL 将模型性能提升至 74.2，已接近甚至媲美 o3-mini（74.5）和 DeepSeek-R1（74.9）等更大规模、经过大量训练的先进模型。

（2）短上下文训练，却能更好泛化至长上下文

尽管训练时仅使用了 16K 长度的输入上下文，但模型学习到的推理模式能够有效泛化至更长的上下文。这得益于 KeyChain构建的数据的引入，它促使模型习得“规划–检索–推理–复核”的思维模式。

如表3 所示，LoongRL-7B 和 LoongRL-14B 在更长上下文的推理与检索任务上均取得显著提升，超越了在更长上下文上训练的 R1-distilled 系列模型和 QwenLong-L1-32B。在 RULER 基准上，其他基线模型随着上下文长度增加性能急剧下降，而我们的模型始终保持强劲表现，表明所学习到的推理模式具有高度的长上下文迁移能力。

（3）近乎无损的短上下文推理能力保留

表2 显示LoongRL 有效保留了基础模型的在短上下文推理与通用任务上核心能力。在 MMLU 上，LoongRL 带来了2.8%和1.1%的增益。相比之下，R1-distilled 模型和 QwenLong-L1-32B 均出现性能下降。在指令遵循能力方面，R1-distilled 模型表现严重退化，而 LoongRL 仅出现轻微下降。在数学推理任务中，LoongRL仍稳定保持了基础模型的数学能力。

图3 检索能力对比图

（4）长上下文检索能力显著提升

研究团队使用“大海捞针”（Needle in a Haystack）基准评估不同方法的信息检索能力如图 3 所示。LoongRL 显著提升了基础模型的检索能力，在所有深度上均实现了 100% 的准确率。其他方法则表现受限：R1-Distill-7B 在超过 20K 长度后无法有效检索，QwenLong-L1-32B 也未能完全通过该测试。

这表明 LoongRL 不仅增强了推理能力，也显著提升了模型在长上下文中定位关键信息的能力。

消融实验

如图4(c,d)所示，平均响应长度在训练过程中稳步增加。图4(a,b)展示了长上下文推理准确率，其在每个阶段持续提升，表明了多阶段强化学习方法的有效性。

图4 强化学习训练过程中长上下文推理准确率与训练响应长度的变化情况

表4 对 KeyChain 构建的数据有效性消融实验

如表4 所示，使用常规问答数据的强化学习性能提升较小，而引入KeyChain构建的数据则实现了显著提升，达到了前沿水平的表现。

表5 在7B模型上对不同答案验证器的消融实验

为评估答案验证方法有效性，研究团队将双向子串精确匹配与三种基线对比：F1得分、LLM评判和完全匹配。

如表5所示，F1和LLM评判增益有限；完全匹配虽准确但过于严格，会误罚格式微差的正确答案。相比之下，双向子串精确匹配在保持高精度的同时允许合理变体，将推理得分提升至72.4，显著优于基线，验证了其在强化学习中的有效性与实用性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

1、探索 DB2 Express - C：免费且强大的数据库解决方案

别再迷信大模型了！微软全新RL方法，让14B小模型“越级”挑战DeepSeek-R1，大海捞针轻松拿捏！

01方法