news 2026/2/9 5:59:59

NeurIPS 2025 | 拒绝死记硬背!真正的高手模型,都在偷偷记“错题本”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NeurIPS 2025 | 拒绝死记硬背!真正的高手模型,都在偷偷记“错题本”

我们小时候成绩提升最快的时候,往往不是刷最多题的时候,而是——开始认真整理“错题本”的那一刻。

真正厉害的学习者,并不是只把错题记下来,而是会反复追问:我当时是怎么想的?为什么会这样错?这是偶然,还是一种“常见思维陷阱”?

通过这种反思式学习(Reflective Learning),人类可以逐步识别自己的“错误模式”,在不确定问题前变得越来越谨慎、越来越稳。

大模型训练的“错题本”是什么?

先看现在的大模型是怎么学习的。(1)现有训练方式:大模型不断根据问题预测答案,一旦预测结果与标准答案不一致,就通过 loss 的反向传播不断修正参数,本质上是— “记住正确答案”。

但问题来了。那现在大模型训练真正缺少的是什么?不是数据,不是算力,而是像人一样的“深度反思”的能力:记错题 → 复盘当时怎么想错的 → 识别错误模式 → 下次更警惕。

这正是这篇 NeurIPS Spotlight 的核心思想。作者提出了一个非常“人类化”的概念:Mistake Log(错题本)。

论文标题:

Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning

论文链接:

https://arxiv.org/abs/2505.16270

代码链接:

https://github.com/jiaruzouu/TransformerCopilot

Mistake Log 到底在“记”什么?——不是记答案,而是记“我是怎么想错的”

在大模型的传统微调(SFT)中,我们通常只关心一件事:模型最后输出对不对,loss 大不大。

但这篇工作提出了一个更“像人学习”的核心思想:仅仅知道“错了”是不够的,真正有价值的是:模型是在“什么样的内部思考状态下”犯了这个错。

这正是 Mistake Log(错题本) 的核心:它不是一个“对错记录本”,而是一个完整的“错误发生现场回放系统”。

第一步:记录“这道题是什么” —— Question

在每一轮训练中,模型先接收到输入序列:

在论文中用表示,表示对该问题的抽象的一个表征。即我当时在做哪一题?

第二步(最关键):记录“模型当时是怎么想的” —— Rationale(内部推理状态)

真正拉开这项工作与普通 SFT 的差距的,就是这里。我们不仅只看最终输出,而是直接读取 Transformer 每一层、每一个 token 位置的隐藏状态:

  • i:第 i 个 token;

  • l:第 l 层 Transformer;

  • h:模型在这一刻真实的内部向量表达,它不是“文字解释”,而是真实神经网络的思考轨迹。

论文中将所有 token、所有层的隐藏状态整体收集为:

✅ Rationale = 模型当时完整的“内部认知状态快照”。这一步就像人类不是只记“这道题错了”,而是会回想:“我当时是按哪个公式想的?”“我那一步是为什么会选这个分支?”

第三步:逐 token 量化“错在了哪里” —— Mistakes

接着,论文不是用一个整体 loss 来模糊衡量错误,而是在 token 级别精确定位错误来源。对每个 token,计算:

  • 模型预测分布:

  • 真实正确分布:

  • 两者之间的 discrepancy(差距):

得到的不是一句话“你错了”。这一步,本质上是在构建:逐 token 的“精细错误热力图”。也就是说,Mistake 不再是:“这道题错了”,而变成了:“你是从第几个 token 开始走歪的,是怎么一步步歪下去的。”

所以,一条真正的 Mistake Log 不是一条 Q-A 对,而是一个三元组:

  • Question:我在做什么题。

  • Rationale:我当时整个大脑(神经状态)是怎么运转的。

  • Mistakes:我是从哪一步、哪个 token 开始偏离正确轨道的。

假设在大模型训练中一共 T 步,则我们“错题本”一共有 T 条 Mistake Log,表示为:

如何利用大模型训练中“错题本”?

这项工作的核心思路非常直接:引入一个 辅助模型(Copilot),专门用于学习主模型(Pilot)在训练过程中累积下来的 “错题本(Mistake Log)”。具体来说:

  • 辅助模型的输入:由原始问题表征(Question)与主模型在推理过程中的隐状态表示(Rationale)共同构成;

  • 辅助模型的学习目标:预测主模型在每一个 token 上的错误幅度(token-level mistake),即哪里容易出错、错得多大;

  • 推理阶段的作用方式:将辅助模型输出的纠错 logits 与主模型原始 logits 融合,从而在生成时对主模型的预测进行实时校正。

最终,这个集成模型不再只是“靠参数记住答案”,而是具备了 基于历史错误进行动态纠错的能力。

理论保证:只要 Copilot 能够较好地预测主模型的错误趋势,并且纠错权重 λ 取在合理范围内,那么在每一个 token 维度上,经过 Copilot 纠正后的预测,其期望误差一定严格小于原始主模型的预测误差。

实验结果

实验结果表明,T-Copilot 在多个主流大模型(LLaMA-3、Qwen2.5、T5 等)上均带来了较大性能提升,覆盖常识推理与算术推理共 10 个基准任务。

特别值得注意的是,小规模 Copilot 与大规模主模型的组合,往往可以“以小博大”:例如,LLaMA-3.2-3B 在引入 3B 规模的 T-Copilot 后,以 6B 总参数规模超越了原本 8B 的 LLaMA-3.1-8B;

讨论

这项工作对大模型训练中潜在的“错题本(Mistake Log)”机制 进行了初步定义和探索,但这一方向仍然存在大量值得进一步研究的问题。

当前大模型的“自我反思”方法已经较为丰富,多数依赖于显式思维链(Chain-of-Thought)或多 Agent 协作纠错 的方式,但这些方法大多侧重于“结果层面的反思”,而尚未真正深入到模型自身“犯错时的内部认知状态”层面。

因此,一个值得深入探讨的核心问题是:基于模型自身内部思考状态的“自我反思”,是否比依赖外部智能体的“他人纠错”更加本质、更加有效?

此外,错误日志(Mistake Log)本身的结构化建模与利用方式仍有很大拓展空间,例如是否存在更高效的错误表示方式、更稳健的错误模式抽象机制,以及更合理的辅助模型(Copilot)架构设计。

目前的辅助模型在稳定性与泛化性方面仍存在一定局限,也有待在未来工作中持续改进与完善。

感谢 UIUC 与普林斯顿大学作者所做出的重要贡献。

参考文献

Zou, Jiaru, et al. "Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning." arXiv preprint arXiv:2505.16270 (2025).

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 1:24:41

用Qwen3-VL-8B实现高效视频理解的实战方案

用Qwen3-VL-8B实现高效视频理解的实战方案 你有没有遇到过这种情况:想给产品加上“看懂视频”的能力,但一看到百亿参数模型的部署门槛和推理成本就望而却步?GPU显存爆了、响应延迟高得没法上线、每小时烧掉几十块云服务费……更扎心的是&…

作者头像 李华
网站建设 2026/2/7 7:27:49

Qwen3-32B工具调用实战:让AI真正动起来

Qwen3-32B工具调用实战:让AI真正动起来 你有没有经历过这样的尴尬时刻? 客户问:“我上个月的发票开好了吗?” 你只能回:“稍等,我去系统查一下。” 然后切窗口、翻记录、再回来回复——三分钟过去了。 而…

作者头像 李华
网站建设 2026/2/6 17:56:10

16、如何使用 XtraBackup 搭建一个从库-2

如何使用 XtraBackup 搭建一个从库 测试环境信息 角色 IP地址 主库 192.168.79.10 从库 192.168.79.20 具体搭建步骤 1. 主库上创建复制账号 create user rep1@% identified by 123456; grant replication slave on *.* TO rep1@%;2. 对主库进行备份 在192.168.79.10上执行…

作者头像 李华
网站建设 2026/2/5 10:16:48

郑济高铁长清黄河特大桥设计及施工阶段BIM技术研究

近年来,在铁路BIM联盟推动下,铁路行业BIM技术发展迅速,但受行业自身特点影响,铁路工程BIM技术应用尚未完全成熟。高速铁路桥梁BIM技术面临3个难题:铁路BIM技术标准的落地应用、三维信息模型的高效构建、BIM应用在施工阶…

作者头像 李华
网站建设 2026/2/7 16:19:47

Qwen-Image-Lightning:8步极速文生图技术完全指南

Qwen-Image-Lightning:8步极速文生图技术完全指南 【免费下载链接】Qwen-Image-Lightning 项目地址: https://ai.gitcode.com/hf_mirrors/lightx2v/Qwen-Image-Lightning 在人工智能图像生成领域,Qwen-Image-Lightning以其惊人的速度和卓越的质量…

作者头像 李华