Meta超级智能实验室和伊利诺伊大学联合推出Dr. Zero(DeepResearch-Zero)框架。
零数据自我进化让搜索智能体超越监督学习极限。
Meta超级智能实验室和伊利诺伊大学联合推出Dr. Zero(DeepResearch-Zero)框架。
该框架在完全没有人类标注数据的情况下,仅靠搜索引擎和自我博弈,大语言模型就能训练出超越监督学习水平的搜索和推理智能体。
在人工智能的发展历程中,高质量数据的获取始终是一道难以逾越的高墙。
随着大语言模型对数据胃口的日益增大,互联网上现存的高质量文本几近枯竭。
面对这一困境,让模型像人类一样在实践中自我学习、自我进化,成为了打破数据瓶颈的关键路径。
现有的尝试多集中在数学或代码等封闭领域,因为这些领域的答案非黑即白,容易验证。
对于涉及开放领域知识的搜索与问答任务,由于缺乏标准答案且信息源庞杂,零数据自我进化一直是一个悬而未决的难题。
Meta的联合研究团队提出了Dr. Zero的创新框架。
这一框架彻底摒弃了对人类问题、答案或标注数据的依赖,仅凭一个外部搜索引擎,就能让模型在自我博弈中不断提升。
Dr. Zero训练出的模型在多项复杂问答基准测试中,不仅击败了传统的少样本提示方法,甚至在某些指标上超越了经过完全监督微调的强力基准模型。
提问者与解答者的共生博弈
Dr. Zero的核心理念在于构建一个自给自足的学习闭环,这类似于一种左右互搏的武术修炼,或者更像是一场精心设计的教学相长。
在这个系统中,同一个基座模型被分化为两个角色:一个是提问者(Proposer),另一个是解答者(Solver)。
提问者的任务是提出问题,解答者的任务是利用搜索引擎寻找信息并回答问题。
这种架构看似简单,实则暗藏玄机。
以往的类似尝试往往失败,原因在于提问者很容易“偷懒”。如果缺乏适当的引导,提问者倾向于生成大量结构简单、甚至不需要搜索就能回答的单跳(One-hop)问题。
这导致解答者虽然刷了很多题,但能力始终停留在浅层,无法处理需要多步推理和综合搜索的复杂任务。
另一方面,如果问题太难或完全无解,解答者又会因为总是失败而学不到任何东西。
Dr. Zero引入了一套精妙的机制来打破这种低水平循环。
研究团队为提问者设计了一个多轮工具调用流程。
现在的提问者不仅仅是凭空编造问题,它也被赋予了使用搜索引擎的能力。
在生成问题之前,提问者会先利用搜索引擎进行探索,确认信息的存在性和关联性。
这种设计确保了生成的问题既是基于真实世界的,又是理论上可解的。
为了让两者共同进步,系统引入了一个基于难度的动态奖励机制。
这个机制不仅关注解答者是否答对了,更关注它是如何答对的。
如果解答者对某个问题的所有尝试都失败了,说明题目太难,提问者得不到高分。
如果解答者每一次尝试都轻松答对,说明题目太简单,提问者同样得不到高分。
只有当解答者处于“跳一跳够得着”的状态,即部分尝试成功、部分失败时,提问者才能获得最高的奖励。
这种机制迫使提问者不断试探解答者的能力边界,生成那些既有挑战性又能被解决的问题,从而在无形中构建出一条难度从低到高、循序渐进的自动化课程。
随着训练的进行,解答者的搜索和推理能力越来越强,简单的问题已经无法满足它的胃口。
为了获得高分,提问者被迫去挖掘更隐蔽的关联,设计需要多次跳转搜索才能找到答案的多跳(Multi-hop)问题。
这种动态的对抗与协作,使得整个系统在没有任何外部人类数据输入的情况下,自发地涌现出了处理复杂开放域问题的能力。
跳数分组相对策略优化
在强化学习的框架下训练大语言模型,计算成本往往是巨大的挑战。
特别是对于Dr. Zero这种需要频繁调用搜索引擎并进行多轮推理的系统,效率问题尤为突出。
传统的组相对策略优化(GRPO)算法虽然在减少方差方面表现出色,但它要求对同一个提示采样多个输出以计算基准。
如果在训练提问者时直接套用GRPO,意味着对于每一个生成的“种子想法”,都要生成多个完整的问题,然后针对每一个问题,解答者又要进行多次搜索和推理。
这种嵌套式的采样会导致计算量呈指数级爆炸,使得训练变得极度缓慢且昂贵。
为了解决这一计算瓶颈,研究团队提出了一种名为跳数分组相对策略优化(Hop-Grouped Relative Policy Optimization,简称HRPO)的新方法。
HRPO的核心洞察在于,不同复杂度的问题在结构上具有相似性。与其对同一个提示进行多次昂贵的采样,不如利用提问者生成的不同问题之间的自然差异。
HRPO将生成的问题按照其“跳数”进行聚类分组。
所谓的“跳数”,指的是解决该问题所需推理步骤的多少。
一步就能搜到答案的是单跳问题,需要先搜A再搜B才能推导出C的是多跳问题。
HRPO认为,同一跳数级别内的问题在难度和预期奖励上是具有可比性的。
因此,它不再强求针对单一输入的多次采样,而是将同一批次中所有相同跳数的问题聚合起来,以该组的平均表现作为基准来计算优势函数。
这种方法巧妙地实现了两个目标。
它极大地降低了采样成本,因为不需要为了计算基线而重复生成冗余的样本。
它通过同类比较有效地降低了梯度估计的方差。
毕竟,拿一个简单的单跳问题和一个极度复杂的多跳问题去直接比较奖励是不公平的,而HRPO确保了是在同级别的选手中进行较量。
配合HRPO,Dr. Zero还设计了精细的奖励函数。
对于提问者,奖励由两部分组成:一部分是基于解答者通过率的难度奖励,鼓励生成处于能力边界的题目;另一部分是格式奖励,确保生成的问题结构完整、逻辑清晰。
对于解答者,则采用基于结果的奖励,并通过GRPO进行优化。
由于解答者的任务是客观的答题,只需将预测答案与提问者预设的答案进行比对即可。
这一整套数学与工程上的优化,使得Dr. Zero能够在保持训练稳定性的同时,大幅压缩了计算资源的需求。它成功地避开了嵌套采样的陷阱,让大规模的自我进化训练在实际操作层面变得可行且高效。
零数据方法的强大潜力
为了验证Dr. Zero的实际效果,研究团队在多个开放域问答基准上进行了广泛的测试。
这些测试涵盖了从简单的单跳数据集如Natural Questions(NQ)、TriviaQA,到复杂的多跳数据集如HotpotQA、2WikiMultihopQA等。
实验使用了Qwen2.5的3B和7B指令微调版本作为基座模型。
对比的基线方法包括标准的少样本提示(Prompting)、迭代检索思维链(IRCoT)、Search-o1以及检索增强生成(RAG)。
更重要的是,Dr. Zero还与完全监督的方法进行了正面交锋,包括监督微调(SFT)和基于强化学习的搜索智能体Search-R1。
值得强调的是,所有这些基线方法都需要人类提供的标注数据或演示示例,而Dr. Zero则是完全的“白手起家”。
从Table 1的数据中可以看出,Dr. Zero在各项指标上表现得极具竞争力。
在基于Qwen2.5-3B模型的测试中,Dr. Zero在单跳问答任务(NQ, TriviaQA, PopQA)上全面超越了监督学习的Search-R1。
例如在NQ数据集上,Dr. Zero达到了0.397的准确率,而Search-R1仅为0.323。
这表明,即便没有人类教导,模型通过自我探索也能掌握极其高效的搜索策略。
在多跳问答任务中,Dr. Zero同样表现不俗。
虽然在部分非常复杂的任务上略逊于经过专门监督训练的对手,但差距已经非常微小,并且远超其他无监督或少样本方法。
当模型规模扩大到7B时,Dr. Zero的能力进一步释放,在2WikiMQA等高难度数据集上甚至取得了反超,证明了该框架具有良好的扩展性。
研究人员还将Dr. Zero与现有的其他无数据方法进行了对比,如自问语言模型(SQLM)和R-Zero。
结果显示,Dr. Zero在各个维度上都实现了碾压式的领先。
Table 2的数据清晰地展示了这一点,在平均得分上,Dr. Zero比增强版的R-Zero*高出了整整7个百分点。
为了探究训练过程中的动态变化,研究团队记录了不同迭代轮次下的奖励和性能。
Figure 3生动地描绘了两者的共同进化过程。
随着训练步数的增加,解答者解决问题的能力在提升,导致初始的奖励值下降。这迫使提问者必须生成更难的问题来获取奖励,从而形成了一条上升的进化曲线。
Table 3和Figure 4进一步揭示了学习的细节。
在第一轮迭代中,模型取得了最显著的进步,随后几轮则是稳步微调。
特别是对于7B模型,过多的迭代反而可能导致性能波动,这提示了自我进化过程中的不稳定性边界,也为未来的研究指明了方向。
Dr. Zero是一种范式的转换。它证明了机器智能的提升未必需要人类手把手地喂养数据。只要给予适当的工具(搜索引擎)和合理的激励机制(HRPO与难度引导奖励),模型就能在自我博弈中涌现出复杂的推理和搜索能力。
这为在数据稀缺的垂直领域开发高级智能体打开了一扇新的大门,也让我们对人工智能的自主进化潜力有了更深的期待。
未来的AI或许不再需要人类作为老师,它们只需要一个像Dr. Zero这样的竞技场,就能自己学会如何认识和探索这个世界。