首家！百度大模型安全护栏荣获信通院大模型安全护栏能力评估优秀级-平芜编程栈

12月12日，百度大模型安全护栏在中国信通院泰尔实验室的大模型安全护栏能力评估中，凭借多模态审核、安全代答及攻击拦截等能力维度的出色表现，斩获最高级别的“优秀级”评级。此前，百度大模型安全护栏的红线代答模型已于2025年6月获得中国信通院“大规模预训练模型（文本生成功能）安全认证增强级”的认证。至此，百度大模型安全护栏为行业内拥有“双安全证书”最高级别认证的AI护栏产品。

在多模态大模型快速发展的当下，风险不再仅仅隐藏在文字之中，而是伪装在图片、音频甚至跨模态的组合里。而传统的审核方案往往采用“烟囱式”架构，即针对图片使用OCR、人脸识别、风控模型等多个小模型进行级联检测，再分别审核文本。这种方式不仅资源消耗巨大，更无法应对复杂的组合式风险。而百度大模型安全护栏依托大模型强大的泛化理解能力，能够精准识别跨模态的隐性威胁，对组合风险进行拦截，展现了行业领先的多模态统一审核能力。

当风险不再是单一维度时，传统的单模态审核系统往往难以应对复杂的图文融合风险。百度大模型安全护栏的多模态审核能力，核心在于构建了“All in One”的多模态审核大模型。它能够像人类一样理解上下文语境与视觉信息的深层关联。例如，当一张本身无害的图片配上一段具有隐喻性的违规文字时，传统模型极易漏判，而百度大模型安全护栏能精准识别两者结合后产生的“化学反应”，有效拦截隐晦的色情、暴恐或敏感内容。此外，百度大模型安全护栏通过模型量化、剪枝及提示词优化技术，将多个专用小模型的能力融合进一个统一的大模型中。这不仅大幅降低了部署资源的消耗，更提升了检测效果，解决了传统多模态审核中处理割裂、体系分散的痛点。

在大模型应用中，如何处理敏感或高风险问题，是检验安全护栏能力的试金石。而许多模型采用“一刀切”的拒答策略，不仅用户体验极差，更无法传递正确的价值观。百度大模型安全护栏的安全代答能力，通过构建精细化的信任域RAG等处置矩阵，实现了从“一刀切”到“正向引导”的转变。信任域RAG能实时检索政府网站、官方媒体及百科知识等权威信源，将官方口径实时同步模型回答中。并在面对涉政相关等高敏感问题，系统引入了红线知识库服务。当用户提出涉及政治敏感、伦理道德或法律红线的问题时，护栏不仅能迅速识别风险，更能通过检索增强生成技术，调用权威信息对用户进行正向引导与驳斥不良价值观。

更为重要的是，随着人工智能技术的普及，针对大模型的攻击手段正变得愈发隐蔽和多样化。从简单的恶意指令，演变为复杂的“提示词注入”、“越狱攻击”以及“逻辑陷阱”。对此类基于语境的深度攻击，百度大模型安全护栏能够深度分析上下文意图，从而精准识别并阻断此类高级攻击。同时，护栏具备强大的Prompt审核服务，能够有效检测包括“代码攻击”、“前缀注入”、“拒绝遏制”等多种复杂的攻击手段。护栏系统不仅关注输入端的风险，还通过输入输出双侧API进行全链路管控。对于隐蔽性极强的恶意指令，系统会结合语义分析与攻击模式识别，在模型推理前即完成风险清洗，不仅于此，这套防御体系并非静态的，它具备自适应进化能力。百度大模型护栏通过持续更新最新型的攻击样本，通过微调“裁判大模型”进行自动化对抗测试，确保护栏的防御能力始终跑在攻击者的前面。对于企业而言，这意味着无需组建庞大的红蓝对抗团队，即可拥有一套达到高标准的防御系统。

另一方面，百度大模型安全护栏这套安全范式已成功落地于AIPC、智能终端等前沿场景。针对端侧算力有限、隐私要求高且需离线运行的挑战，推出了端云结合的解决方案。护栏通过在终端部署经过量化压缩的离线审核算子，不仅节省了宝贵的端侧算力，还满足了国家标准对离线审核能力的严格要求。从云端的“红线大模型”到端侧的“离线安全算子”，百度大模型安全护栏正以立体化的防御体系，为千行百业的智能化转型植入坚实的“安全基因”。

百度大模型安全护栏的创新实践不仅体现在技术层面，更重要的是我们始终坚持将安全理念融入大模型全生命周期。从数据清洗、安全对齐、内生安全到大模型安全运营，百度大模型安全护栏构建了一套完整的原生安全体系。未来，我们将继续携手行业合作伙伴，以技术创新推动大模型安全的健康发展。百度安全将在人工智能安全领域持续投入，为各行各业提供更加专业、可靠的安全服务，助力人工智能产业的可持续发展，为构建更加安全可信的AI应用环境贡献力量。