文心 5.1 正式发布！创作能力表现突出，跨越式优化训练效率与模型稳定性-平芜编程栈

今年 1 月，文心 5.0 正式发布。文心 5.0 采用全新的多维度弹性预训练算法，通过 Once-for-All 弹性大模型训练技术，在单次预训练过程中通过动态采样机制，联合学习多组不同配置的子模型，实现“一次训练，产出多种规模模型”。在统一训练框架下，模型支持深度可变、专家容量可伸缩、路由稀疏度可调节的弹性训练策略，形成覆盖不同参数规模与计算成本的子模型矩阵。

今天，文心 5.1 正式上线。充分继承文心 5.0 知识，显著降低预训练成本，将总参数压缩至约 1/3、激活参数压缩至约 1/2，仅使用业界同规模模型约 6% 的预训练成本，实现同级别模型基础效果领先。

为推动大模型向自主决策智能体进化，我们全新构建了分离式全异步强化学习基础技术，针对性解决了训推偏差、资源利用率低及长尾效应带来的全局优化挑战。在此基础上，通过规模化智能体后训练与环境-专家-融合全链路协同策略，实现了训练效率与模型能力的双重跃升，确保模型在处理复杂长尾任务时依然保持极致的稳定性与卓越表现。

作为当前国产大模型的效价比标杆之一，文心 5.1 在保持旗舰智力的同时，完成了参数效率与训练成本的跨越式优化。性能已通过国际权威榜单验证：5 月 9 日，文心 5.1 以 1223 分斩获 Arena 搜索榜全球第四、国内第一。

文心 5.1 技术报告已同步发布：https://yiyan.baidu.com/blog/posts/ernie-5.1-0508-release/

登录官网https://yiyan.baidu.com 即可与最新的文心 5.1 模型对话，探索智能全新体验。 API 服务已同步更新，基于百度千帆标准 API 协议，并将 model_name 设置为 ernie-5.1 即可使用该模型；星河社区也同步开启文心 5.1Playground 体验。

千帆大模型平台：https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/detail/am-d94f2a76cccd#ERNIE-5.1
星河社区 AI Studio 体验：飞桨 AI Studio 星河社区-人工智能学习与实训社区

文心 5.1:Agent、推理能力突出，世界知识能力位列顶尖模型前列

文心 5.1 在多个业界权威基准测试中表现出色，尤其是智能体、知识、推理、深度搜索方面：

Agent 能力突出，媲美世界顶尖模型：在 τ3-bench 与 SpreadsheetBench-Verified Agent 评测任务中，文心 5.1 性能超越DeepSeek-V4-Pro，Agentic 能力接近领先的闭源模型，并在 Search Arena 榜单中表现优异。
世界知识与创意写作能力领先：在 GPQA 和 MMLU-Pro 评测中，文心 5.1 效果接近领先的闭源模型。内部评测中，文心 5.1 的创意写作能力接近 Gemini 3.1 Pro。
推理能力接近领先的闭源模型：在挑战性的数学竞赛评测 AIME26 （使用工具）中，文心 5.1 得分 99.6，仅次于 Gemini-3.1 Pro。

技术特性

多维度弹性预训练技术，预训练算力成本仅为业界同规模模型的 6%

文心 5.1 基于文心 5.0 训练而得，从文心 5.0 子模型矩阵中提取最优子结构，充分继承文心 5.0 知识，显著降低预训练成本。研发团队创新性提出 Once-for-All 的弹性训练框架，传统方法需为不同规模模型分别进行预训练，而文心 5.0 仅在单次预训练中，便可通过动态采样机制，同时优化大量参数各异的子模型，构建出覆盖多种参数规模与计算开销的“子模型矩阵”。在此过程中，模型在三个维度上实现弹性压缩与扩展：

弹性深度：训练时随机跳过部分 Transformer 层，使不同深度的子模型共享权重，从而自适应地学习深层与浅层表征的平衡。
弹性宽度：弹性调控 MoE 层实际参与计算的专家池规模，通过随机动态屏蔽部分专家，迫使剩余专家承担更多样化的任务，从而提升专家利用效率。
弹性稀疏度：通过可变的 Top‑k 路由机制，灵活调整模型激活的专家数量。当激活专家较少时，可降低推理成本；当激活专家较多时，则能增强模型能力，实现推理开销与性能之间的动态权衡。
基于该突破，文心 5.1 将总参数量压缩至文心 5.0 的 1/3 左右，激活参数量压缩至约 1/2，预训练算力成本仅为业界同规模模型的 6%，相对文心 5.0 显著降低了推理成本，并在同规模模型中取得了领先的预训练模型效果。

分离式全异步强化学习训练，更高效、更稳定、更低成本

我们基于飞桨构建了一套分离式强化学习基础设施，支撑了文心 5.1 的多阶段强化学习训练。为了更高效、稳定、低成本地完成长程强化学习任务的稳定训练，我们在以下三个方向上做了重点优化：

分离式全异步架构：我们设计并研发了以强化学习中控（RL Controller）为核心的分离式架构，将训练、推理、奖励以及智能体循环（Agent Loop）四大子系统的控制面完全解耦，各子系统之间基于高性能网络的数据组件进行桥接与交互，实现控制流与数据流分离。在该架构下，各子系统可独立部署、独立扩缩容，分别匹配最优的算力形态；同时推理、训练、奖励之间形成天然的流水线，可被充分重叠掩盖，为 Agentic RL 的长程异步训练奠定了高可扩展的底座。
FP8 训推一致性优化：基于飞桨训推一体框架，我们实现了统一的 FP8 低精度算子库，最小化强化学习中训练与推理之间的精度偏差。针对 MoE 模型训推路由偏差问题，我们对 Rollout Router Replay (R3) 技术做了深度优化——通过两阶段的计算–通信掩盖，结合动态比特位的通信量压缩与多级 KVCache 池化技术，实现在开启 R3 后训推耗时几乎无增加的同时，K3 KL 散度下降 50%，为文心 5.1 的长程稳定训练提供了关键保障。
资源异构弹性调度：得益于分离式的架构设计，我们可以非常灵活按需为各个训练、推理、奖励等系统匹配最优的算力配置，充分借助集群的弹性算力降低 Rollout 的端到端耗时。针对 AI 集群中普遍存在的 CPU 资源利用不足问题，我们实现了一种弹性 CPU 池化策略。该弹性机制可充分利用集群中闲置的 CPU 算力，支撑诸如代码沙箱、Verifier 等逻辑密集型计算，提升了资源利用率的同时也缩短训练迭代时间。

提出 OPD 为核心的多阶段强化学习训练管线，全面确保模型能力融合

传统大语言模型（LLMs）的后训练通常为一个串行流程，从监督微调（SFT）到多阶段混合强化学习（Mixed RL）逐步推进训练。然而，随着模型能力的不断扩展，这种串行训练范式日益成为瓶颈，严重阻碍了研发和迭代的效率。同时，试图在单一的训练阶段融合所有能力，会引入严重的多目标优化冲突，使得平衡不同领域任务效果并实现帕累托最优变得极其困难，某项能力的提升往往以另一项能力的退化为代价（即“跷跷板”效应）。

为了克服这些根本性挑战，我们提出了一种以多教师在线策略蒸馏（MOPD）为核心的多阶段强化学习训练流程。该流程通过并行化的专家模型训练显著加速了研发周期，同时确保了全面、无冲突的能力融合。具体而言，文心 5.1 的后训练管线是一个四阶段流程，将专家训练与统一能力融合进行了解耦：

阶段一：统一监督微调（SFT）。使用高质量的多领域指令数据进行微调，为模型奠定指令遵循和工具调用的基础能力，作为后续能力扩展的初始化起点。
阶段二：领域专家模型训练。并行训练多个领域的专家模型（如代码、推理、智能体）。每个方向独立定制专属的奖励信号和训练算法，从根本上避免了不同任务间的相互影响。
阶段三：在线策略蒸馏（OPD) 。以统一 SFT 模型为学生，多个领域专家模型为教师。学生基于自身策略分布采样，通过令牌级 KL（token-level reverse KL）同时学习多个教师能力，将不同专家的能力高效融合至统一的参数空间。
阶段四：通用在线强化学习（General-RL）。在初次 OPD 阶段之后，我们专门引入了一个面向通用对话场景的在线强化学习。我们通过实验发现，并非所有任务都适合采用令牌级 KL进行 OPD 能力融合。具体而言，具有高熵分布为特征的任务，例如开放式聊天或创意写作，往往会导致蒸馏效率低下，并可能会使输出概率过度平滑。为解决这一问题，我们放弃了对该领域的蒸馏，转而在 OPD 训练后的模型上进行在线强化学习。该阶段确保了模型的指令遵循能力、生成多样性并更好地对齐了人类偏好，显著提升了模型的通用能力，同时也保留了专家模型的能力。

批注：OPD（在线策略蒸馏）

创作能力表现突出

基于技术架构的迭代优化与核心技术的精准优化，文心 5.1 基础能力全面升级的同时，在创作能力上也有突出表现。无论是创意写作中“灵感-情感-表达”的精准同频、长篇叙事里“逻辑-人物-节奏”的协同把控，还是专业文本中“知识准确性-风格适配性”的双重平衡，文心 5.1 均能在穿透用户表层需求、捕捉核心意图的基础上，生成“有温度、有深度、有逻辑”的超越预期之作。这种“意图洞察-内容创作”的闭环能力，不仅在技术层面实现了“理解-生成”的精准协同，更在产业端收获了创作类企业、内容平台及专业作家群体的广泛赞誉——被视为“懂用户、懂内容、懂场景”的标杆性创作好模型。

感谢知名内容互动企业与平台、作家/创作者测评反馈。此外，文心 5.1 将于今日陆续上线 ISEKAI ZERO（全球头部 AI Roleplay 互动游戏平台）、MulanAI（创意视频 Agent 平台）、谛听幻流（AI 原生创意画布）、storymaster（AI 短剧生成平台）等数 10+ 创作生产 Agent 平台，欢迎广大创作者与用户前往体验。

文心大模型的持续迭代与进步，离不开技术底座的强力支撑与用户长期主义的共同坚守。

感谢每一位社区测评与使用的开发者与伙伴，你们的每一条建议都在推动模型优化；感谢选择与我们合作的企业，你们的场景需求让技术真正落地生根；更要感谢所有包容过模型不足、持续给予耐心的用户——是你们的信任，让我们有勇气突破边界。

AI 的进化没有终点，文心大模型的每次进步都源于真实需求。未来，我们将继续保持开放，倾听每一份声音，让技术更踏实地服务于广大用户。