简介
本文系统分析了15个将强化学习(RL)与大型语言模型(LLM)结合的创新项目,展示了RL在增强LLM推理、搜索和交互能力中的重要作用。这些项目通过创新的RL框架优化了LLM在搜索优化、工具调用、多轮交互和深度研究等复杂任务中的表现。随着RL算法和LLM的进一步融合,LLM智能体能力有望提升,为知识密集型任务和自动化决策提供更强大解决方案。
引言
Agent落地元年,大家一直在用各种方式做创新,比如拿Graph做Memory,拿SFT+RL增强调用tools的能力等,研究者们探索了将RL与LLM结合,开发出能够自主调用外部工具、优化搜索策略并在多轮交互中实现复杂推理的智能体,RL在各种场景中频繁出现。
本文通过对一系列创新性项目的系统分析,全面综述了RL在增强LLM推理、搜索和交互能力中的应用,探讨了其方法论、实践价值及未来发展方向,欢迎关注阿东玩AI。
目录如下:
一、ReSearch
- 论文: https://arxiv.org/pdf/2503.19470
- GitHub仓库: https://github.com/Agent-RL/ReCall
- 摘要: 大型语言模型(LLM)展现出卓越的推理能力,如OpenAI-o1和DeepSeek-R1的成功所示。然而,将推理与外部搜索过程结合仍具挑战性,尤其是在需要多步检索的复杂多跳问题上。我们提出了ReSearch框架,通过强化学习训练LLM在无需推理步骤监督数据的情况下使用搜索进行推理。搜索操作被视为推理链的一部分,由基于文本的思维引导,搜索结果进一步影响推理过程。我们在Qwen2.5-7B和Qwen2.5-32B模型上训练ReSearch,实验表明其在多基准测试中具有强大的泛化能力,展现出反思和自我修正等高级推理能力。
- 描述: ReSearch通过强化学习优化LLM的搜索与推理能力,将搜索操作融入推理链,强调基于文本的动态决策。
- 实践价值: 适合研究RL如何提升LLM在复杂推理任务中的表现,特别是涉及多步搜索优化的场景。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓
![]()
二、Search-R1
- 论文: https://arxiv.org/pdf/2503.19470
- GitHub仓库: https://github.com/PeterGriffinJin/Search-R1
- 支持本地稀疏检索器(例如 BM25)。✔️
- 支持本地密集检索器(平面索引和 ANN 索引)✔️
- 支持谷歌搜索/必应搜索/勇敢搜索 API 等。✔️ Support off-the-shelf neural rerankers. ✔️
- 支持现成的神经重新排序器。✔️
- 支持不同的 RL 方法(例如 PPO、GRPO、强化)。✔️
- 支持不同的 LLM(例如 llama3、Qwen2.5 等)。✔️
- 摘要: 高效获取外部知识对LLM的推理和生成至关重要,但直接让推理能力强的LLM使用搜索引擎并非最佳选择。本文提出Search-R1,通过强化学习扩展推理框架,使LLM在逐步推理中自主生成搜索查询。Search-R1通过多轮搜索交互优化推理轨迹,利用检索到的token掩码进行稳定RL训练,并采用基于结果的奖励函数。实验表明,Search-R1在七个问答数据集上性能显著优于RAG基线,Qwen2.5-7B和Qwen2.5-3B模型分别提升41%和20%。
- 描述: Search-R1通过RL训练LLM优化查询生成和结果解读,提升任务解决能力。
- 实践价值: 适合探索LLM与外部工具(如搜索引擎)结合的场景,研究RL如何优化信息获取。
三、R1-Searcher
- 论文: https://arxiv.org/pdf/2503.05592
- GitHub仓库: https://github.com/RUCAIBox/R1-Searcher
- Model:
- Qwen-2.5-7B-Base-RAG-RL: https://huggingface.co/XXsongLALA/Qwen-2.5-7B-base-RAG-RL
- Llama-3.1-8B-Instruct-RAG-RL: https://huggingface.co/XXsongLALA/Llama-3.1-8B-instruct-RAG-RL
- Train-data: https://huggingface.co/datasets/XXsongLALA/RAG-RL-Hotpotqa-with-2wiki
- 摘要: 现有大型推理模型通过RL提升复杂推理能力,但依赖内部知识可能导致不准确或幻觉问题。我们提出R1-Searcher,一种基于结果的两阶段RL方法,增强LLM的搜索能力,使其在推理中自主调用外部搜索系统。实验表明,R1-Searcher显著优于RAG方法,甚至超越闭源的GPT-4o-mini。
- 描述: R1-Searcher通过RL激励LLM发展搜索能力,专注于从外部资源获取和利用信息。
- 实践价值: 适用于知识密集型问答或数据分析等高效信息检索任务。
四、RAGEN
- 论文: https://arxiv.org/pdf/2504.20073
- GitHub仓库: https://github.com/ZihanWang314/RAGEN
- 摘要: 训练LLM为交互式智能体面临长期决策和随机环境反馈的挑战。我们提出StarPO框架和RAGEN系统,用于轨迹级智能体RL训练。研究发现“回声陷阱”模式,并通过StarPO-S解决。实验表明,多样化初始状态和推理感知奖励信号对RL部署至关重要。
- 描述: RAGEN通过多轮RL实现LLM代理的自我进化,优化轮次级别的信用分配。
- 实践价值: 适合研究多轮交互和自我改进的代理,应用于对话系统或任务规划。
有三个主要模块:环境状态管理器(ragen/llm_agent/es_manager.py)、上下文管理器(ragen/llm_agent/ctx_manager.py)和代理代理(ragen/llm_agent/agent_proxy.py)。
- 环境状态管理器(es_manager):
支持多种环境(不同环境、相同环境不同种子、相同环境相同种子) 记录部署过程中每个环境的状态 处理来自ctx_manager的操作,执行步骤,并以批处理方式将操作结果(观察结果)返回给ctx_manager
- 上下文管理器(ctx_manager):
将原始代理令牌解析为es_manager的结构化操作 格式化来自es_manager的观察,解析并制定它们以供接下来的代理推出。 收集最终的推出轨迹并将其编译成标记、注意力掩码、奖励分数和损失掩码,以供 llm 更新。
- Agent Proxy(agent_proxy): 作为执行单轮或多轮部署的接口
五、ReTool[字节出品,必属精品]
- 论文: https://arxiv.org/pdf/2504.11536
- GitHub仓库: https://github.com/ReTool-RL/ReTool
- 摘要: 推理模型在文本推理上表现出色,但在结构化问题解决中表现不佳。ReTool通过工具集成学习增强长篇推理能力,动态交错代码执行,并通过RL优化工具调用策略。在AIME基准上,ReTool-32B模型达到72.5%准确率,超越OpenAI o1-preview。
- 描述: ReTool通过RL训练LLM战略性使用工具(如API、计算器),优化任务解决能力。
- 实践价值: 适合研究工具增强型LLM,探索RL在工具选择和使用中的应用。
六、DeepResearcher
- 论文: https://arxiv.org/pdf/2504.03160
- GitHub仓库: https://github.com/GAIR-NLP/DeepResearcher
DeepResearcher 是首个全面的框架,通过在真实环境中扩展强化学习 (RL) 来实现基于 LLM 的深度学习代理的端到端训练,并支持真实的网络搜索交互。我们的定性分析揭示了端到端 RL 训练中涌现出的认知行为 ,包括制定计划、交叉验证来自多个来源的信息、进行自我反思以重新引导研究方向,以及在无法找到明确答案时保持诚实的能力。
- 摘要: DeepResearcher通过在真实环境中扩展RL,训练LLM进行深度研究,应对开放网络的复杂性。实验表明,其性能显著优于基于提示工程和RAG的基线,展现出计划、交叉验证和自我反思等认知行为。
- 描述: DeepResearcher结合LLM与外部知识源,扩展RL在现实研究任务中的应用。
- 实践价值: 适合需要深度信息合成的场景,如科学研究或复杂数据分析。
七、ZeroSearch
- 论文: https://arxiv.org/abs/2505.04588
- GitHub仓库: 未提供具体链接
- 摘要: ZeroSearch通过RL训练LLM内化搜索能力,采用基于课程的推出策略,逐步提升推理能力。实验表明,7B和14B模型的检索模块性能可媲美甚至超越真实搜索引擎。
- 描述: ZeroSearch减少对外部搜索的依赖,通过RL模拟搜索行为。
- 实践价值: 适合研究LLM如何通过内部机制模拟搜索,降低对外部资源的依赖。
八、Agent-R1
- GitHub仓库: https://github.com/0russwest0/Agent-R1
- 描述: Agent-R1扩展DeepSeek-R1,通过RL训练代理型 LLM,提升决策和任务执行能力。
- 详细解读: https://deepwiki.com/0russwest0/Agent-R1
- 实践价值: 适合探索动态环境中的代理行为,应用于复杂任务场景。
九、 StepSearch
- 论文: https://www.arxiv.org/pdf/2505.15107
- GitHub仓库: https://github.com/Zillwang/StepSearch
- 摘要: StepSearch通过逐步近端策略优化(PPO)训练LLM,包含细粒度搜索奖励和信息增益监督,显著优于全局奖励基线,3B和7B模型分别提升11.2%和4.2%。
- 描述: StepSearch通过PPO优化分步搜索过程,提升多跳推理能力。
- 实践价值: 适合研究PPO在LLM搜索增强中的应用,特别适用于分步任务。
十、 Multi-Turn-RL-Agent
- 论文: https://arxiv.org/pdf/2505.11821
- GitHub仓库: https://github.com/SiliangZeng/Multi-Turn-RL-Agent
- 摘要: 通过轮次级别优势估计优化多轮工具使用场景,Multi-Turn-RL-Agent在工具执行和精确答案匹配中显著优于基线,成功率达100%,准确率达50%。
- 描述: 聚焦于通过轮次级别信用分配强化LLM代理的多轮推理能力。
- 实践价值: 适合研究多轮对话或复杂任务中的长期推理优化。
十一、如何学习AI大模型?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。
不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!
想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高
那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份LLM大模型资料分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以扫描下方二维码领取🆓↓↓↓
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓