news 2026/5/10 1:46:49

文心 5.1 正式发布!创作能力表现突出,跨越式优化训练效率与模型稳定性

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
文心 5.1 正式发布!创作能力表现突出,跨越式优化训练效率与模型稳定性

今年 1 月,文心 5.0 正式发布。文心 5.0 采用全新的多维度弹性预训练算法,通过 Once-for-All 弹性大模型训练技术,在单次预训练过程中通过动态采样机制,联合学习多组不同配置的子模型,实现“一次训练,产出多种规模模型”。在统一训练框架下,模型支持深度可变、专家容量可伸缩、路由稀疏度可调节的弹性训练策略,形成覆盖不同参数规模与计算成本的子模型矩阵。

今天,文心 5.1 正式上线。充分继承文心 5.0 知识,显著降低预训练成本,将总参数压缩至约 1/3、激活参数压缩至约 1/2,仅使用业界同规模模型约 6% 的预训练成本,实现同级别模型基础效果领先。

为推动大模型向自主决策智能体进化,我们全新构建了分离式全异步强化学习基础技术,针对性解决了训推偏差、资源利用率低及长尾效应带来的全局优化挑战。在此基础上,通过规模化智能体后训练与环境-专家-融合全链路协同策略,实现了训练效率与模型能力的双重跃升,确保模型在处理复杂长尾任务时依然保持极致的稳定性与卓越表现。

作为当前国产大模型的效价比标杆之一,文心 5.1 在保持旗舰智力的同时,完成了参数效率与训练成本的跨越式优化。性能已通过国际权威榜单验证:5 月 9 日,文心 5.1 以 1223 分斩获 Arena 搜索榜全球第四、国内第一。

文心 5.1 技术报告已同步发布:https://yiyan.baidu.com/blog/posts/ernie-5.1-0508-release/

登录官网https://yiyan.baidu.com 即可与最新的文心 5.1 模型对话,探索智能全新体验。 API 服务已同步更新,基于百度千帆标准 API 协议,并将 model_name 设置为 ernie-5.1 即可使用该模型;星河社区也同步开启文心 5.1Playground 体验。

  • 千帆大模型平台:https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/detail/am-d94f2a76cccd#ERNIE-5.1
  • 星河社区 AI Studio 体验:飞桨 AI Studio 星河社区-人工智能学习与实训社区

文心 5.1:​Agent、推理能力突出,​世界知识能力位列顶尖模型前列

文心 5.1 在多个业界权威基准测试中表现出色,尤其是智能体、知识、推理、深度搜索方面:

  1. ​Agent 能力突出,媲美世界顶尖模型:​在 τ3-bench 与 SpreadsheetBench-Verified Agent 评测任务中,文心 5.1 性能超越DeepSeek-V4-Pro,Agentic 能力接近领先的闭源模型,并在 Search Arena 榜单中表现优异。
  2. ​世界知识与创意写作能力领先:​在 GPQA 和 MMLU-Pro 评测中,文心 5.1 效果接近领先的闭源模型。内部评测中,文心 5.1 的创意写作能力接近 Gemini 3.1 Pro。
  3. 推理能力接近领先的闭源模型​:在挑战性的数学竞赛评测 AIME26 (使用工具)中,文心 5.1 得分 99.6,仅次于 Gemini-3.1 Pro。

技术特性

多维度弹性预训练技术,预训练算力成本仅为业界同规模模型的 6%

文心 5.1 基于文心 5.0 训练而得,从文心 5.0 子模型矩阵中提取最优子结构,充分继承文心 5.0 知识,显著降低预训练成本。研发团队创新性提出 Once-for-All 的弹性训练框架,传统方法需为不同规模模型分别进行预训练,而文心 5.0 仅在单次预训练中,便可通过动态采样机制,同时优化大量参数各异的子模型,构建出覆盖多种参数规模与计算开销的“子模型矩阵”。在此过程中,模型在三个维度上实现弹性压缩与扩展:

  • 弹性深度​:训练时随机跳过部分 Transformer 层,使不同深度的子模型共享权重,从而自适应地学习深层与浅层表征的平衡。

  • 弹性宽度​:弹性调控 MoE 层实际参与计算的专家池规模,通过随机动态屏蔽部分专家,迫使剩余专家承担更多样化的任务,从而提升专家利用效率。

  • 弹性稀疏度​:通过可变的 Top‑k 路由机制,灵活调整模型激活的专家数量。当激活专家较少时,可降低推理成本;当激活专家较多时,则能增强模型能力,实现推理开销与性能之间的动态权衡。

    基于该突破,文心 5.1 将总参数量压缩至文心 5.0 的 1/3 左右,激活参数量压缩至约 1/2,预训练算力成本仅为业界同规模模型的 6%,相对文心 5.0 显著降低了推理成本,并在同规模模型中取得了领先的预训练模型效果。

分离式全异步强化学习训练,更高效、更稳定、更低成本

我们基于飞桨构建了一套分离式强化学习基础设施,支撑了文心 5.1 的多阶段强化学习训练。为了更高效、稳定、低成本地完成长程强化学习任务的稳定训练,我们在以下三个方向上做了重点优化:

  • ​分离式全异步架构:​我们设计并研发了以强化学习中控(RL Controller)为核心的分离式架构,将训练、推理、奖励以及智能体循环(Agent Loop)四大子系统的控制面完全解耦,各子系统之间基于高性能网络的数据组件进行桥接与交互,实现控制流与数据流分离。在该架构下,各子系统可独立部署、独立扩缩容,分别匹配最优的算力形态;同时推理、训练、奖励之间形成天然的流水线,可被充分重叠掩盖,为 Agentic RL 的长程异步训练奠定了高可扩展的底座。
  • ​FP8 训推一致性优化:​基于飞桨训推一体框架,我们实现了统一的 FP8 低精度算子库,最小化强化学习中训练与推理之间的精度偏差。针对 MoE 模型训推路由偏差问题,我们对 Rollout Router Replay (R3) 技术做了深度优化——通过两阶段的计算–通信掩盖,结合动态比特位的通信量压缩与多级 KVCache 池化技术,实现在开启 R3 后训推耗时几乎无增加的同时,K3 KL 散度下降 50%,为文心 5.1 的长程稳定训练提供了关键保障。
  • ​资源异构弹性调度:​得益于分离式的架构设计,我们可以非常灵活按需为各个训练、推理、奖励等系统匹配最优的算力配置,充分借助集群的弹性算力降低 Rollout 的端到端耗时。针对 AI 集群中普遍存在的 CPU 资源利用不足问题,我们实现了一种弹性 CPU 池化策略。该弹性机制可充分利用集群中闲置的 CPU 算力,支撑诸如代码沙箱、Verifier 等逻辑密集型计算,提升了资源利用率的同时也缩短训练迭代时间。

提出 OPD 为核心的多阶段强化学习训练管线,全面确保模型能力融合

传统大语言模型(LLMs)的后训练通常为一个串行流程,从监督微调(SFT)到多阶段混合强化学习(Mixed RL)逐步推进训练。然而,随着模型能力的不断扩展,这种串行训练范式日益成为瓶颈,严重阻碍了研发和迭代的效率。同时,试图在单一的训练阶段融合所有能力,会引入严重的多目标优化冲突,使得平衡不同领域任务效果并实现帕累托最优变得极其困难,某项能力的提升往往以另一项能力的退化为代价(即“跷跷板”效应)。

为了克服这些根本性挑战,我们提出了一种以多教师在线策略蒸馏(MOPD)为核心的多阶段强化学习训练流程。该流程通过并行化的专家模型训练显著加速了研发周期,同时确保了全面、无冲突的能力融合。具体而言,文心 5.1 的后训练管线是一个四阶段流程,将专家训练与统一能力融合进行了解耦:

  • 阶段一:统一监督微调(SFT)。使用高质量的多领域指令数据进行微调,为模型奠定指令遵循和工具调用的基础能力,作为后续能力扩展的初始化起点。
  • 阶段二:领域专家模型训练。并行训练多个领域的专家模型(如代码、推理、智能体)。每个方向独立定制专属的奖励信号和训练算法,从根本上避免了不同任务间的相互影响。
  • 阶段三:在线策略蒸馏(OPD) 。以统一 SFT 模型为学生,多个领域专家模型为教师。学生基于自身策略分布采样,通过令牌级 KL(token-level reverse KL)同时学习多个教师能力,将不同专家的能力高效融合至统一的参数空间。
  • 阶段四:通用在线强化学习(General-RL)。在初次 OPD 阶段之后,我们专门引入了一个面向通用对话场景的在线强化学习。我们通过实验发现,并非所有任务都适合采用令牌级 KL进行 OPD 能力融合。具体而言,具有高熵分布为特征的任务,例如开放式聊天或创意写作,往往会导致蒸馏效率低下,并可能会使输出概率过度平滑。为解决这一问题,我们放弃了对该领域的蒸馏,转而在 OPD 训练后的模型上进行在线强化学习。该阶段确保了模型的指令遵循能力、生成多样性并更好地对齐了人类偏好,显著提升了模型的通用能力,同时也保留了专家模型的能力。

批注:OPD(在线策略蒸馏)

创作能力表现突出

基于技术架构的迭代优化与核心技术的精准优化,文心 5.1 基础能力全面升级的同时,在创作能力上也有突出表现。无论是创意写作中“灵感-情感-表达”的精准同频、长篇叙事里“逻辑-人物-节奏”的协同把控,还是专业文本中“知识准确性-风格适配性”的双重平衡,文心 5.1 均能在穿透用户表层需求、捕捉核心意图的基础上,生成“有温度、有深度、有逻辑”的超越预期之作。这种“意图洞察-内容创作”的闭环能力,不仅在技术层面实现了“理解-生成”的精准协同,更在产业端收获了创作类企业、内容平台及专业作家群体的​广泛赞誉​——被视为“懂用户、懂内容、懂场景”的​标杆性创作好模型​。

感谢知名内容互动企业与平台、作家/创作者测评反馈。 此外,文心 5.1 将于今日陆续上线 ISEKAI ZERO(全球头部 AI Roleplay 互动游戏平台)、MulanAI(创意视频 Agent 平台)、谛听幻流 (AI 原生创意画布)、storymaster(AI 短剧生成平台)等数 10+ 创作生产 Agent 平台,欢迎广大创作者与用户前往体验。

文心大模型的持续迭代与进步,离不开技术底座的强力支撑与用户长期主义的共同坚守。

感谢每一位社区测评与使用的开发者与伙伴,你们的每一条建议都在推动模型优化;感谢选择与我们合作的企业,你们的场景需求让技术真正落地生根;更要感谢所有包容过模型不足、持续给予耐心的用户——是你们的信任,让我们有勇气突破边界。

AI 的进化没有终点,文心大模型的每次进步都源于真实需求。未来,我们将继续保持开放,倾听每一份声音,让技术更踏实地服务于广大用户。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 1:44:55

46.人工智能实战:大模型 A/B 实验怎么做?从“感觉新 Prompt 更好”到指标驱动的线上实验平台

人工智能实战:大模型 A/B 实验怎么做?从“感觉新 Prompt 更好”到指标驱动的线上实验平台 一、问题场景:新 Prompt 看起来更好,上线后转化率却下降了 大模型系统迭代时,最容易发生一种争论: 这个 Prompt 感觉更自然。 这个模型回答更详细。 这个版本好像更聪明。问题是…

作者头像 李华
网站建设 2026/5/10 1:44:52

想做网络安全工程师?超详细职业规划出炉 零基础入门、学习路线、就业薪资全覆盖

文章目录 前言 一、就业工作岗位众多 网络工程师的个人职业规划 一、网络工程师的职业优势二、网络工程师解读 计算机网络安全工程师怎么发展职业规划 文末福利 前言 网络安全专业网络安全专业就业前景怎么样?有哪些就业方向? 一、就业工作岗位众多…

作者头像 李华
网站建设 2026/5/10 1:43:33

Taotoken模型广场如何帮助开发者根据任务与预算选择合适的模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Taotoken模型广场如何帮助开发者根据任务与预算选择合适的模型 面对众多大语言模型,开发者常面临一个核心问题&#xf…

作者头像 李华
网站建设 2026/5/10 1:43:31

Rewardful vs PartnerShare:2026 联盟营销管理追踪软件对比指南

选择合适的联盟营销管理系统,能让SaaS企业在2026年的增长竞争中事半功倍。Rewardful和PartnerShare分别是海外与国内市场备受关注的两款工具,本文将从功能、定价、支付集成等维度进行全方位对比,帮你快速做出最适合业务阶段的选择。一、什么是…

作者头像 李华
网站建设 2026/5/10 1:40:41

Claude API用量监控工具:实时可视化与成本控制实践

1. 项目概述:一个直观的Claude使用量监控工具最近在深度使用Claude API进行开发时,我遇到了一个很实际的问题:如何实时、直观地监控我的API使用量,避免在不知不觉中超出预算?官方控制台的数据虽然准确,但查…

作者头像 李华
网站建设 2026/5/10 1:40:12

CANN/cannbot-skills:KVCache Offload 异步搬运流案例

案例:KVCache Offload 异步搬运流 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills 概述 这个案例解决的是…

作者头像 李华