训练靠奖励，但奖励模型自己“瞎”了？奖励模型根本不懂“记忆”！-平芜编程栈

在大语言模型迈向超长上下文处理的征程中，分段记忆架构已成为突破长上下文瓶颈的主流范式。记忆管理能力成为衡量模型性能的分水岭——既负责信息的跨片段传播，也确保模型在长程推理中不丢失关键信号。因此，利用奖励模型（RMs）自动、可靠地评估记忆质量至关重要。

我们提出了MemRewardBench—— 首个系统性评估奖励模型在长期记忆管理过程能力的基准测试。核心贡献如下：

全场景覆盖与长程压力测试：覆盖长文本推理、多轮对话与长文本生成三类任务，共 10 种记忆模式设置，上下文跨度从 8K 到 128K Tokens，全面检验 RMs 在极端长度下的判别稳定性。
过程与结果的深度解耦：在“最终结果均正确”的干扰样本中，要求 RMs 通过辨别记忆更新的逻辑严密性、冗余度与关键信息保留来给出高分，从而量化其“过程洞察力”。
多维能力谱系扫描：系统评测 13 款开源与闭源 RMs。实验表明，主流模型在处理复杂时序依赖时仍存在显著“记忆盲区”，判别效能更多受益于算法迭代而非单纯参数规模。

图 1：MemRewardBench 基准测试结果展示。其中，‘S’ 与 ‘M’ 分别表征‘顺序模式（Sequential）’与‘混合模式（Mixed）’。‘MO’、‘M’、‘AO’ 与 ‘AM’ 分别对应‘Mem0-OUT’、‘Mem0-MEM’、‘A-Mem-OUT’ 与 ‘A-Mem-MEM’。针对各项评估指标，最优结果以加粗显示，次优结果则辅以底线标注。

从“黑盒结果”到“透明过程”：奖励模型需要感知记忆

长上下文能力的本质并非无限的窗口，而是强大的记忆调度与管理水平。基于分段式存储的记忆架构，正逐渐成为大语言模型在百万级 Token 序列中精准传播信息、维持逻辑一致性的核心引擎。如图2所示，在这种范式下，模型不再试图一次性吞吐全部序列，而是通过动态维护一个状态空间（即“记忆”）来跨片段流转关键信息[1]。可以说，记忆管理的效能已成为衡量模型在超长序列中信息传播质量与逻辑连贯性的底层基石[2]。因此，我们亟需一种自动、可靠的方法来监督和评估这个中间的记忆管理过程。

图 2：长输入序列的整体处理和分段处理示意图。

如图3所示，现有评估记忆的 Benchmark 以大语言模型为主体，并且高度依赖“结果导向”的判别逻辑——即仅通过最终输出的正确性来倒推记忆质量[3]。这种“黑盒”评价方式无法直接观测中间记忆的更新逻辑，难以区分模型是由于精准的信息过滤还是随机的模式匹配获取了答案。

图 3：MemRewardBench 与现有记忆力基准测试的对比。其中，‘DU’表示对话理解，‘MR’表示多跳推理，‘KU’表示知识更新，‘TR’表示时序推理，‘GEN’表示生成任务。

于是，我们将评测的焦点进行了一次转向：不再仅仅关注模型“记住了什么”，而是深入探究那些指导模型优化的“教练”——奖励模型（RMs）——是否具备精准评估记忆管理过程的能力。但在这之前我们需要明确：当前的 RMs 是否具备足够的敏感度，去识别长上下文窗口下记忆轨迹中的细微缺陷？

MemRewardBench的诞生，正是为了填补这一关键空白。它将评估焦点从模型本身的记忆力，转向评估那些指导模型优化的奖励模型。通过涵盖长文本推理、多轮对话理解和结构化生成等多种真实任务，并创新性地设计基于结果和基于过程的双重评估维度，为记忆管理的“过程质量”提供了量化的标尺。

MemRewardBench：核心架构与设计深度

📦论文 & 代码（评测数据）传送门：

> 论文标题：MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models > HF Daily: https://huggingface.co/papers/2601.11969 > 论文链接：https://arxiv.org/pdf/2601.11969 > 代码：https://github.com/LCM-Lab/MemRewardBench > 数据：https://huggingface.com/LCM-Lab/MemRewardBench

思考的架构：三种记忆管理模式

在长文本处理的语境下，模型如何高效地在分段序列中传递与保留信息？MemRewardBench 依照以下三种核心模式进行任务设计，如图4所示：

图 4：三种记忆管理模式示意图。自左至右依次为：顺序模式、并行模式及混合模式。每种模式均展示了正确与错误的记忆更新轨迹。为简化起见，图中省略了上下文分块，仅呈现中间记忆状态。

顺序模式 (Sequential Pattern)：在这一模式下，记忆状态呈现出一种步进式的演化过程。给定序列切片，每一阶段的记忆不仅取决于当前的输入，更依赖于前一阶段的记忆状态。最终的预测输出完全由最后一个记忆状态驱动。这要求模型具备极强的长程连贯性，任何一处中间状态的噪声都可能在后续传递中被无限放大。
并行模式 (Parallelism Pattern)：为了提升处理效率或应对分布式任务，上下文被划分为多个相互独立的子组。每个子组在内部遵循顺序模式生成各自的最终状态，而各个子组之间则是同步并行处理。系统通过一个融合算子将所有子组的记忆状态进行聚合，生成最终产出。这种模式挑战了奖励模型对非线性、分布式信息融合质量的辨别能力。
混合模式 (Mixed Pattern)：事实上，任何复杂的记忆管理行为都可以看作是上述两种原子模式的复合形式。在真实的复杂场景中，LLMs 往往需要在追踪线性逻辑的同时，并行检索侧边的参考信息。混合模式要求奖励模型不仅要理解单一路径的准确性，更要具备对这种复合记忆轨迹进行细粒度评价的“全局视野”。

任务总览：基于三种记忆模式的场景构建

在 MemRewardBench 中，我们将奖励模型置于一个多维度的“竞技场”中。如图5所示，为了确保评测既贴近真实场景又具备足够的区分度，我们从三大核心任务与双重评估维度出发，构建了全方位的评测坐标系。

图 5：MemoryRewardBench 中任务的分布和统计信息，其中设置（“设置”列）是根据基准测试构建过程命名和定义的。

三大核心任务：全方位的“压力测试”

长上下文推理 (Long-context Reasoning)：从信息海洋中精准“捞针”面对由多个文本片段组成的超长内容，模型必须持续筛选、整合与问题相关的证据，逐步更新其记忆状态，最终形成完整答案。这不仅测试奖励模型是否能识别出核心信息的留存，更在考验它能否识破那些看似相关、实则误导的“干扰记忆”。
多轮对话理解 (Multi-turn Dialogue)：跨越百轮对话的连贯追踪在现实情况下，模型常常需要处理长达数百轮的对话记录，构建持续演进的记忆系统，准确捕捉对话中的关键信息、情感变化和话题转折。当被问及对话中某个具体节点时，模型必须能够快速回溯并提取相关对话片段。这一展现出跨越时间的对话连贯性理解能力要求奖励模型能够精准判别模型是否在动态更新中精炼了用户意图，还是在记忆碎片中迷失了方向。
长文本生成 (Long-form Generation)：在约束中保持逻辑自洽有时模型需要在明确的约束条件下进行结构化创作，而每一步的中间输出都成为后续生成的基础记忆。模型必须在持续累积的生成过程中，始终严格遵守预设的所有规则和格式要求，同时保持创作的内在一致性。此时奖励模型必须识别出那些能够支撑长效连贯生成的优质记忆轨迹。

双重评估维度：剥离“结果幸存者偏差”

为了真正穿透黑盒，我们摒弃了单一的评分标准，引入了解耦式的双重评估机制：

对于理解型任务（长上下文推理与多轮对话理解），我们关注两个层面：

结果正确性：最终答案是否准确？这是基础门槛
过程优质性：中间记忆是否简洁、聚焦且与答案高度相关？这是卓越标准

而对于生成型任务，评估重点则在于：

约束遵循度：中间记忆状态是否严格遵守指令中的所有约束条件？

这种双重评估体系的价值在于：

识别“侥幸正确”：避免奖励那些靠猜测或随机匹配得到正确答案的模型
鼓励“优质思考”：引导模型发展出高效、简洁、逻辑清晰的信息处理习惯

全面评估：MemRewardBench 实验结果解析

评估设置

由于当前业内尚缺乏专门针对“记忆管理过程”优化的奖励模型，我们使用13种前沿的 LLMs 作为代理模型进行实验。为了确保评测的绝对公正与严谨，所有受测模型均支持至少 128K Tokens 的上下文窗口。在度量标准上，我们以判别准确率（Judgment Accuracy）为核心指标；值得注意的是，我们引入了更为苛刻的解析规则——若模型输出无法被系统识别，即直接判定为错误。这一机制使得部分模型的观测准确率甚至低于 50% 的理论随机线，从而在极高难度下显著提升了不同梯队模型间的性能区分度。

结果分析

闭源与开源模型对比：闭源模型在复杂任务中表现更稳健，但开源模型的追赶态势显著。GLM4.5 等开源模型在长上下文推理中已实现局部超越，缩小了性能差距。
开源模型的进步：实验表明，模型效能更多依赖数据清洗和后训练策略，而非参数规模。Qwen3 系列相比于 Qwen2.5 系列通过技术迭代实现了显著性能提升，展现出更强的评估能力。
任务能力分化：多轮对话是奖励模型的主要瓶颈，长文本生成次之。长上下文推理表现最稳健。

机制透视：消融实验揭示的奖励模型内在规律

（1）记忆管理模式

如图6所示，奖励模型在“顺序模式”下的表现显著优于“并行模式”。这一结果折射出当前奖励模型的一种底层偏好——它们更擅长理解和判别步进式、线性演进的推理轨迹，这与大模型预训练数据中常见的因果链条高度契合。相比之下，当面对多线程并行处理后再进行信息融合的复杂逻辑时，奖励模型的评估效能表现出明显乏力。

图 6：顺序记忆管理模式和并行记忆管理模式在长上下文推理和长文本生成任务中的性能比较。

（2）评估准则

如图7所示，当面对“两个答案均正确但记忆轨迹优劣不同”的过程评估场景时，奖励模型表现出显著的不一致性，极易受到位置偏见的影响；而在单纯判定结果对错的任务中，其偏好则表现得十分稳健。这表明当前的奖励模型仍高度依赖于最终答案的正确性，而非真正具备洞察中间思维过程、判别记忆演进轨迹质量的“心智”模型。

图 7：基于过程和基于结果的奖励标准比较。“优先选择”表示在输入到奖励模型的上下文中，被选中的样本会先于被拒绝的样本呈现，反之亦然。

此外，针对全局约束的遵循情况，实验观察到一个“性能拐点”。如图8所示，随着指令中约束条件的密度增加，RMs 的评分准确率起初会随之提升，并在约束密度达到约 25% 时达到峰值，因为适度的约束提供了明确的判别基准。然而，一旦约束条件进一步密集化，模型的性能反而进入平台期甚至出现下滑。这说明现有的奖励模型仅能部分利用多面约束来评估记忆的忠实度，在处理极高密度的指令细节时，模型依然面临严重的认知负荷与评估失效。

图 8：随着长生成指令中约束密度的增加，奖励模型的性能趋势。

（3）记忆轨迹长度

如图9所示，实验揭示了长文本奖励模型在处理超长序列时的“耐力”极限。当上下文长度保持在 64K Tokens 以内时，多数奖励模型尚能维持 50% 以上的基础准确率，但一旦跨越这一门槛，性能便呈现出剧烈波动。通过位置交换进行的稳定性测试进一步表明，仅有 GLM-4.5-Air 和 Qwen2.5-72B-Instruct 在大多数长度区间内展现出了稳健的一致性。令人意外的是，模型规模并非长文本判别力的绝对保障——拥有巨大参数量的 Llama-3.3-70B 在 64K 和 128K 的极端长度下遭遇了严重的性能崩溃，表现甚至逊于部分小参数模型。这一异常现象深刻揭示了，在超长序列的记忆管理评价中，长上下文专项优化的质量远比单纯的参数堆砌更为关键。

图 9：记忆管理表现和一致性随记忆管理轨迹长度的变化趋势。第1列和第2列对应于长上下文推理任务，第3列对应于多轮对话理解任务（平均分），第4列对应于长形式生成任务（平均分）。

（4）记忆增强策略如图10所示，实验揭示了辅助信号对判别精度显著的增益作用。在最具挑战性的多轮对话理解任务中，通过为每次记忆更新引入语义标签（如“personal dialogue”等类别标注），能够一致性地提升奖励模型的评估准确率。这一发现为优化长文本奖励模型提供了重要启示——语义标签通过提供高层级的上下文摘要，有效降低了模型处理冗长、冗余记忆轨迹的认知负荷，使其能够跳出繁琐的细节，基于更具逻辑穿透力的关键信息做出稳健判断。这表明，结构化辅助信息将是未来提升长文本智能体记忆评价质量的有效路径。

图 10：比较有无辅助信号时多轮对话理解任务的难度。

总结与展望

作为首个系统性地评估现有奖励模型对LLMs长期记忆管理评估有效性的基准测试工具，MemRewardBench 通过对 13 款模型的深度测评发现，在片段处理的场景下，开源模型已在长上下文理解等任务中基本抹平了与闭源旗舰的性能差距，但在多轮对话理解和高约束长文本生成等涉及“长程依赖”的深水区，现有模型仍表现出明显的判别乏力。实验所揭示的参数规模与实际效能脱钩、并行逻辑判别缺失等局限性，不仅刻画了当前技术的认知边界，也为长文本大模型的优化路径提供了关键参考。

展望未来，MemRewardBench 旨在为提升奖励建模质量提供方法论启示。尽管本基准在覆盖范围与评价维度上仍存在改进空间，但我们希望它能提供有价值的参考，推动开发者回归记忆管理的本质质量，助力长文本智能体实现从碎片化记忆向长效认知能力的跨越。

参考文献

Hongli Yu, Tinghong Chen, Jiangtao Feng, Jiangjie Chen, Weinan Dai, Qiying Yu, Ya-Qin Zhang, Wei- Ying Ma, Jingjing Liu, Mingxuan Wang, and 1 others. 2025a. Memagent: Reshaping long-context llm with multi-conv rl-based memory agent. arXiv preprint arXiv:2507.02259.
Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Jun- tao Tan, and Yongfeng Zhang. 2025b. A-mem: Agentic memory for llm agents. arXiv preprint arXiv:2502.12110.
Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, and Yuwei Fang. 2024a. Evaluating very long-term conversational memory of llm agents. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 13851–13870.
Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Jun- tao Tan, and Yongfeng Zhang. 2025b. A-mem: Agentic memory for llm agents. arXiv preprint arXiv:2502.12110.
Prateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, and Deshraj Yadav. 2025. Mem0: Building production-ready ai agents with scalable long-term memory. arXiv preprint arXiv:2504.19413.