news 2026/4/21 20:37:42

震惊!大模型“推理“竟是“大型喃喃自语“?揭秘AI推理背后的惊天真相,小白程序员看完直呼内行!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
震惊!大模型“推理“竟是“大型喃喃自语“?揭秘AI推理背后的惊天真相,小白程序员看完直呼内行!

这篇文章《(How) Do Reasoning Models Reason?》对当前大型推理模型(LRM)进行了深刻的剖析,超越了表面的性能宣传,直指其技术本质和核心局限。以下是基于原文的详细技术原理、关键过程与核心见解拆解。


一、核心论点与总览

LRM(如 o1, R1)的“推理”能力提升,并非源于模型学会了人类式的逻辑推理,而是通过两类主要技术手段,优化了生成过程,使其在输出最终答案前,模仿并生成看似合理的推导过程。其本质是在“生成-测试”框架中,将外部验证信号逐步“编译”进生成模型参数中。


二、两大技术路径的详细原理与过程

1. 测试时推理(Test-time Inference)

Figure 1:Test-time scaling approaches for teasing out reasoning

核心思想:在推理(回答用户问题)时,让模型做比“直接生成答案”更多的工作,相当于在测试时进行可扩展的、问题自适应的计算。

关键过程:

(1)生成:使用LLM为同一个问题生成多个候选答案或解轨迹。

(2)验证/选择:通过某种机制筛选出最优答案。

2.1)简单选择:如“自我一致性”,选择出现频率最高的答案(假设模型误差是随机的)。

2.2)验证驱动:引入“验证器”对候选答案进行检验。这是性能提升的关键。

验证器类型:

(a)外部可靠验证器:使用传统求解器或可证明正确的程序(如数学计算器、规划器)。这是最可靠的方式,能提供正确性保证(如LLM-Modulo框架)。

(b)学习型验证器:训练另一个模型来判断答案正确性(问题:验证器也可能出错)。

©LLM自我验证:让LLM自我评估(已被证明存在问题,容易产生过度自信)。

  • 迭代改进:如果验证失败,可以将错误信息反馈给生成器,让其重新生成,形成“生成-测试-修正”循环。

  • 核心见解: 这本质上是将搜索或规划过程外包给了测试时的计算循环,而非内化于模型权重中。

  • 根本问题:成本爆炸。计算成本不再与输出长度成正比,而是与问题的内在计算复杂度成正比,颠覆了LLM按token计费的传统商业模式。

2. 训练后方法(基于推导轨迹,Post-Training on Derivational Traces)

Figure 2:Post-training Approaches for teasing out reasoning

核心思想:在标准预训练后,使用包含“解题步骤”(推导轨迹)的数据对模型进行进一步训练,教会模型在输出答案前,先输出类似的中间步骤。

关键过程:

(1)轨迹数据获取(最大难点):

1)人工标注:高质量但代价极高(如GSM8K数据集)。

2)合成生成:使用传统求解器(如A*搜索)自动生成问题解及其完整的搜索轨迹(如SearchFormer)。轨迹准确但领域受限。

3)LLM生成后过滤:让LLM自己生成步骤(利用其预训练中已有的“步骤示范”数据),然后通过验证器过滤出最终答案正确的轨迹(无论中间步骤是否真正合理)。这是当前主流方法。

模型训练:

(1)监督微调:直接在(问题,推导轨迹,答案)数据上微调。

(2)强化学习:更先进的方法(如DeepSeek R1)。

2.1)过程:对于可验证的问题,让模型生成多条带“痕迹”的答案。

2.2)奖励:仅根据最终答案的正确与否给予奖励/惩罚。

2.3)效果:模型参数被调整,使得能导致正确答案的输出模式(包括其前面的“痕迹”)概率增大。

2.4)知识蒸馏:将经过RL训练的“教师模型”的输出作为数据,去训练一个更小的“学生模型”,可以免去昂贵的RL过程。

(3)核心见解:

  • 痕迹的语义虚假性:训练目标只关心最终答案正确。模型学会的是一种能“讨好”奖励信号的输出格式(先输出一堆token,然后输出答案),这些中间token不一定构成逻辑推理,而可能是任何有助于提高最终答案正确率的模式。
  • 本质是编译验证信号:该过程可以理解为将外部验证器(在训练时使用)的“测试”能力,部分地编译到了生成模型的“生成”倾向中。即“智能是将‘生成-测试’中的测试部分转移到生成部分”(明斯基)。

三、对LRM的批判性见解(打破误解)

1. 中间token不是“思考痕迹”

  • 模型生成的“让我们一步步思考…”等文本,是对预训练数据中人类解题风格的模仿,而非内部计算过程的反映。作者戏称为“大型喃喃自语模型”。
  • 证据:即使在专门训练输出求解器轨迹的模型(如SearchFormer)中,其输出的“步骤”也常包含违反基本算法规则的操作(如从开放列表中删除不存在的节点),但这些错误轨迹有时仍能“蒙对”最终答案。这说明轨迹的正确性并非必要。

2. 性能提升的来源是“提示增强”,而非获得推理能力:

Figure 4: Augmenting a task prompt with additional tokens often seems to improve the accuracy of LLM completion even if the tokens don’t have human-parseable meaning.

  • 给LLM一个更长的、特定格式的提示词(如包含“步骤”),即使这些附加token对人类毫无意义,也能提高其答案准确性。
  • LRM的训练后方法,实质上是将这种有效的“提示增强”动态地、内化地置于每次生成的开头。模型学会了自己为自己“铺垫”一段有利于解题的上下文。

3. 泛化能力脆弱

  • 在简单规划任务(Blocksworld)上表现尚可,但一旦对对象和动作进行重命名(Mystery Blocksworld),性能就大幅下降。这表明模型严重依赖表面词汇的匹配,而非抽象的逻辑结构理解。
  • 面对不可解问题时,LRM会自信地生成虚假计划并配上看似合理的解释,存在“ gas lighting ”(误导)用户的风险。

4. 与LLMs没有根本性架构区别

  • 仅经过训练后的LRMs,在推理时仍然是接收提示,自回归地生成token。其架构与普通LLM完全相同。
  • 唯一改变的是模型输出token序列的概率分布:它现在更倾向于先生成一段“类推导痕迹”的token,再生成答案。没有自适应计算,生成长度在训练时已大致确定。

四、核心流程图解:LRMs的工作原理与本质

以下图表概括了上述所有关键过程和见解:


五、未来方向与建议

  • 去拟人化:放弃让中间token像人类“思考”,转而探索高效、压缩、符号化的中间表示,纯粹以提升最终准确性为目标进行优化(类似AlphaZero学习价值函数)。
  • 混合系统定位:LRMs不应被视为独立的“推理者”,而应作为增强型的提议生成器,集成在如LLM-Modulo的框架中,由外部验证器提供可靠性保证。
  • 重新审视评估:需要超越最终答案准确率的基准测试,设计能测评推理过程稳健性、泛化性和成本效率的评估体系。

总而言之,本文揭示了LRMs“推理”能力背后的工程本质,对其过度拟人化的解读提出了有力批判,并为更稳健、可靠的AI系统设计指明了方向。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/19 5:11:52

如何用Zotero智能插件打造终极文献管理系统

如何用Zotero智能插件打造终极文献管理系统 【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件,提供了一系列功能来增强 Zotero 的用户体验,如阅读进度可视化和标签管理,适合研究人员和学者。 项目地址: https://gitcode.com/…

作者头像 李华
网站建设 2026/4/20 16:00:27

ZjuThesis使用指南:快速掌握学术论文排版技巧

ZjuThesis使用指南:快速掌握学术论文排版技巧 【免费下载链接】zjuthesis Zhejiang University Graduation Thesis LaTeX Template 项目地址: https://gitcode.com/gh_mirrors/zj/zjuthesis 在学术写作过程中,格式排版往往是耗时最多的环节。ZjuT…

作者头像 李华
网站建设 2026/4/21 19:54:14

音乐格式自由:解锁QQ音乐专属格式的完整解决方案

音乐格式自由:解锁QQ音乐专属格式的完整解决方案 【免费下载链接】qmcflac2mp3 直接将qmcflac文件转换成mp3文件,突破QQ音乐的格式限制 项目地址: https://gitcode.com/gh_mirrors/qm/qmcflac2mp3 你是否曾经遇到过这样的场景:辛辛苦苦…

作者头像 李华
网站建设 2026/4/18 7:06:08

Windows 11 LTSC安装微软商店完整指南:3分钟恢复应用生态

Windows 11 LTSC安装微软商店完整指南:3分钟恢复应用生态 【免费下载链接】LTSC-Add-MicrosoftStore Add Windows Store to Windows 11 24H2 LTSC 项目地址: https://gitcode.com/gh_mirrors/ltscad/LTSC-Add-MicrosoftStore 还在为Windows 11 LTSC企业版无法…

作者头像 李华