news 2026/2/25 13:02:28

登顶开源Agent模型榜首:阿里通义DeepResearch凭何超越OpenAI与深度求索?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
登顶开源Agent模型榜首:阿里通义DeepResearch凭何超越OpenAI与深度求索?

登顶开源Agent模型榜首:阿里通义DeepResearch凭何超越OpenAI与深度求索?

【免费下载链接】Tongyi-DeepResearch-30B-A3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

2025年9月18日,量子位从阿里巴巴通义DeepResearch团队独家获悉,该团队自主研发的轻量级Agent模型Tongyi DeepResearch-30B-A3B(简称通义DeepResearch)在Humanity's Last Exam(HLE)、BrowseComp-zh、GAIA等八项国际权威评测中全面刷新纪录,以显著优势超越OpenAI Deep Research、DeepSeek-V3.1等主流模型,登顶开源Agent模型性能排行榜。目前该模型已在Gitcode、Hugging Face及魔搭社区开放完整技术方案,标志着中国AI企业在智能体领域实现重大突破。

突破传统范式:全合成数据驱动的训练革命

通义DeepResearch的性能跃升,源于其独创的"零人工标注"数据训练体系。该体系通过多阶段数据合成技术,构建了覆盖知识理解、工具使用、复杂决策的全场景训练数据闭环,彻底摆脱对昂贵人工标注的依赖。

在增量预训练阶段,团队创新性开发Agentic CPT(Continual Pre-training)框架,构建以实体为核心的动态知识记忆系统。该系统整合知识文档、爬虫数据、知识图谱及工具调用轨迹等多元信息,通过实体采样与关系重组技术,自动生成数百万条多风格问答数据。特别在动作合成环节,研究人员设计规划推理、工具调用、决策执行三大动作类型库,利用历史轨迹重构技术模拟真实场景下的多步骤决策过程,使模型在离线环境即可完成智能体能力的基础训练。

后训练阶段则通过WebSailor与WebShaper两大自动化引擎实现数据质量的飞跃。团队首创"原子操作复杂度控制"机制,将问题难度拆解为信息隐藏、多源融合、逻辑嵌套等可量化操作,结合知识图谱随机游走技术,从真实网站数据中生成高复杂度训练样本。为避免模型依赖推理捷径,研究人员引入集合论建模方法,确保每个问题都需要经过严谨的多步骤推理才能得到答案,这种设计使合成数据质量首次超越人工标注水平。

双模式推理架构:兼顾效率与深度的智能引擎

通义DeepResearch创新性采用"轻量-深度"双模式推理架构,既满足日常场景的高效响应,又能攻克高难度研究任务。

基础的ReAct模式采用"思考-行动-观察"经典框架,依托128K超长上下文窗口支持多轮交互。团队秉持"极简设计"理念,通过优化动作空间定义与工具调用协议,使模型在标准Agent任务中实现98%的工具调用准确率。这种轻量化设计特别适合移动端部署,在内存占用减少40%的情况下仍保持95%的任务完成率。

针对科研分析、专业咨询等复杂场景,研发团队提出革命性的IterResearch范式。该范式将传统的单一上下文窗口解构为多轮"研究单元",每个单元仅保留上一轮关键结论与核心证据,通过"聚焦-分析-综合"的迭代过程构建精简工作空间。实验数据显示,这种机制使模型在处理需要50步以上推理的任务时,错误累积率降低67%。在此基础上延伸的Research-Synthesis框架,通过多智能体并行探索与结论融合技术,进一步将复杂问题的解答准确率提升23个百分点。

全栈训练流程:从技能初始化到自我进化

通义DeepResearch构建了业界首个完整的Agent全生命周期训练体系。该体系以Agentica研究为理论基础,基于rLLM框架实现三大训练阶段的无缝衔接:首先通过Agentic持续预训练植入基础工具使用能力;接着利用专家级合成数据进行监督微调,快速完成能力冷启动;最终通过on-policy强化学习实现自我进化,模型可根据环境反馈动态优化决策策略。这种全栈方法使训练效率提升3倍,在相同计算资源下实现智能体能力的指数级增长。

产业落地:从地图导航到法律服务的场景革新

在阿里巴巴生态体系内,通义DeepResearch已展现出强大的商业价值。高德地图V16版本集成该模型后,其智能助手"高德小德"实现复杂出行需求的端到端解决。通过融合地图数据与本地生活服务工具,该Agent能自主完成"查找附近充电站-规划拥堵规避路线-预约充电服务"等多步骤任务,在内部测试中用户满意度达92%,相关功能将随2025年暑期大版本正式上线。

法律智能领域的"通义法睿"应用则充分发挥DeepResearch的深度推理能力。该系统整合2.3亿判例数据与实时更新法规库,通过迭代式规划技术实现类案检索、法条匹配、法律观点生成的全流程智能化。第三方评测显示,其答案要点覆盖率达91%,判例引用准确率超行业平均水平28个百分点,已成为国内600余家律所的辅助工具。

研发团队同步发布《DeepResearch Agent构建指南》,详细阐述从模型选型、工具集成到场景适配的完整方法论。开发者可通过以下渠道获取资源:

  • 项目主页:https://tongyi-agent.github.io/
  • 技术博客:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
  • 代码仓库:https://gitcode.com/hf_mirrors/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

如上图所示,紫色柱状图清晰展示了通义DeepResearch在八项评测中的领先优势,尤其在中文场景BrowseComp-zh和复杂推理任务GAIA中分别超出第二名15.7%和12.3%。这一性能分布直观反映模型在跨语言理解与深度推理方面的双重突破,为开发者选择Agent方案提供权威参考依据。

开源生态与未来展望

通义DeepResearch的全面开源,不仅提供模型权重与代码,更开放包含数据合成工具、训练框架、评估体系在内的完整技术栈。这种开放策略已吸引全球500余家机构参与共建,形成涵盖金融分析、医疗诊断、教育辅导等20余个垂直领域的应用生态。

研究团队表示,下一代模型将重点突破多模态智能体技术,计划整合视觉理解与物理世界交互能力,目标在2026年实现机器人操作场景的自主规划。随着开源社区的持续壮大,通义DeepResearch有望推动智能体技术从实验室走向千行百业,真正实现"让AI具备深度思考能力"的技术愿景。

作为首个在国际权威评测中全面超越闭源模型的开源Agent方案,通义DeepResearch的突破不仅标志着中国AI技术的自主创新能力,更为全球智能体研究提供了全新范式。其"数据合成-双模式推理-全栈训练"的技术路线,或将成为下一代通用人工智能系统的标准架构。

【免费下载链接】Tongyi-DeepResearch-30B-A3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/21 0:17:16

2025软件测试面试题(持续更新)

前言 转眼2025年招聘季已将到来,没点真本事真技术,没点面试经验,不了解点职场套路,如何过五关斩六将?如何打败面试官?如何拿下那梦寐以求的offer? 如果你的跳槽意向已经很确定,那么…

作者头像 李华
网站建设 2026/2/20 17:58:11

9、自动存储管理(ASM)全面解析

自动存储管理(ASM)全面解析 1. ASM 概述 自动存储管理(ASM)于 Oracle 10.1 版本引入,旨在通过自动化磁盘和文件管理任务来简化存储管理,降低管理开销和部署成本。它是 OCFS 的通用替代方案,可在所有平台上运行,具备类似 OCFS 的功能,还包含卷管理能力,如磁盘平衡和…

作者头像 李华
网站建设 2026/2/20 9:10:36

仿写文章标题示例:当前人工智能领域最新发展趋势深度剖析

仿写文章标题示例:当前人工智能领域最新发展趋势深度剖析 【免费下载链接】Magistral-Small-2509-unsloth-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Magistral-Small-2509-unsloth-bnb-4bit 在当今科技飞速发展的时代,人工…

作者头像 李华
网站建设 2026/2/18 19:36:48

深入解析Android Fragment预加载机制:提升应用流畅度的关键

目录 一、为什么需要预加载? 二、ViewPager/ViewPager2的预加载机制 2.1 内置预加载机制 2.2 预加载引发的问题和解决方案 2.3 现代懒加载实现方案(推荐) 三、手动预加载实现方案 3.1 预加载所有Fragment 3.2 懒加载数据实现 四、进阶优化技巧 4.1 按需预加载策略 4.2 内存优…

作者头像 李华