news 2026/5/25 2:54:11

敏感信息泄露 - 大语言模型 OWASP TOP 10系列

张小明

前端开发工程师

1.2k 24

文章封面图 — 敏感信息泄露 - 大语言模型 OWASP TOP 10系列

敏感信息泄露

资料来源：genai.owasp.org
资料整理：韦胖

是什么意思？

AI 大模型在回答问题时，可能无意中说出它"不应该说"的内容——比如用户的个人信息、公司的商业机密、系统的内部配置，甚至是其他用户的私密数据。

这类泄露可能来自：

模型的训练数据（如果训练集里包含了隐私信息）
用户自己无意间输入的敏感内容
系统配置不当，把不该暴露的信息放进了 AI 的上下文

可能泄露的信息包括：

个人身份信息（姓名、身份证号、联系方式等）
财务数据、健康记录
商业机密、内部算法
系统凭据（密码、API 密钥等）
法律文件

对于企业自有的专有模型，训练方式和模型架构本身也属于需要保护的敏感信息。

常见问题示例

个人信息泄露：用户在对话中提到了自己的隐私信息，AI 后续可能在回答其他用户时不经意间引用这些数据。
专有算法外泄：配置不当的模型可能将内部算法或训练数据暴露出来。历史上曾有"Proof Pudding"漏洞（CVE-2019-20634），通过训练数据泄露逆向出了机器学习模型，攻击者得以绕过安全控制。
商业机密泄露：模型在生成回答时，可能无意中包含内部业务数据或客户信息。

如何防范

数据清理

训练数据要脱敏：在用数据训练模型之前，对其中的姓名、联系方式、密码等敏感内容进行清理或替换为占位符。
严格验证输入：对用户输入进行检查，过滤掉可能被模型记忆或泄露的敏感信息。

访问控制

最小权限原则：严格控制谁能访问哪些数据，不需要的权限一概不开放。
限制外部数据来源：控制模型在运行时能访问哪些外部数据源，防止意外读取到不该看到的内容。

隐私保护技术

联邦学习：不把数据集中到一处，而是让模型在各自的设备或服务器上独立训练，减少数据集中带来的泄露风险。
差分隐私：在训练数据或模型输出中加入适量"噪声"，让攻击者即使得到数据也无法还原出具体的个人信息。

用户教育

告诉用户不要输入敏感信息：在产品界面或文档中明确提示，不要把密码、身份证号等隐私内容发给 AI。
数据处理要透明：公开说明用户数据如何被保存、使用和删除，并允许用户选择"不让我的数据参与模型训练"。

系统安全配置

隐藏系统初始配置：限制用户查看或覆盖系统提示，减少内部配置被意外暴露的风险。
遵循安全配置规范：参考 OWASP API8:2023 的指南，避免通过错误提示或配置细节泄露内部信息。

高级技术

同态加密：让数据在加密状态下就能被模型处理，全程无需解密，进一步保护隐私。
令牌化与数据遮掩：在数据进入模型之前，先用占位符替换敏感字段（如把手机号变成[PHONE]），处理结束后再还原。

真实攻击场景

场景 1：无意数据泄露

由于平台缺乏有效的数据隔离，某用户在查询时收到了另一个用户留下的个人信息。

场景 2：目标性提示词注入

攻击者通过精心设计的输入绕过过滤机制，诱导模型输出系统内部的敏感数据。

场景 3：训练数据里的"遗留信息"

模型训练时使用了包含真实用户数据的数据集，即使数据"理论上被清理过"，攻击者仍可通过构造特定查询把原始数据"问"出来。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/5/25 2:47:06

ARM ETE协议地址压缩技术原理与应用

1. ARM ETE协议中的地址压缩技术解析在嵌入式系统和处理器架构领域，高效的指令追踪是系统调试和性能分析的基础。ARM嵌入式跟踪扩展(ETE)协议采用创新的地址压缩技术，解决了传统追踪方案数据量过大的痛点。这项技术的核心在于利用程序执行的局部性原理&a…

作者头像

李华

网站建设 2026/5/25 2:46:05

UE5.1增强输入踩坑实录：手把手教你用蓝图搞定角色移动与镜头控制（含Input Mapping Contexts优先级设置）

UE5.1增强输入系统深度解析：从蓝图配置到实战优化在虚幻引擎5.1中，增强输入系统的引入彻底改变了传统的输入处理方式。这套新系统不仅整合了旧版的轴映射和操作映射功能，更通过模块化设计为开发者提供了前所未有的灵活性和控制精度。本文将带…

作者头像

李华

网站建设 2026/5/25 2:42:03

华为openEuler系统下，永久配置JAVA_HOME环境变量的三种方法（含/etc/profile与~/.bashrc对比）

华为openEuler系统下永久配置JAVA_HOME的深度实践指南在openEuler系统中部署Java应用时，环境变量配置的持久性直接影响开发效率和系统稳定性。许多开发者遇到过这样的困扰：明明在终端中配置了JAVA_HOME，重启服务器后所有设置"消失"…

李华

网站建设 2026/5/25 2:41:04

Burst编译器实战：让C# Job达到C++级性能

1. 这不是“C#写得快”，而是“C#跑得像C一样快”你有没有过这种体验：用C#写逻辑清晰、开发飞快，但一到性能敏感模块——比如物理模拟的每帧碰撞检测、粒子系统的万级粒子更新、或者实时音频处理的低延迟回调——CPU就突然拉满，Pro…

作者头像

李华

网站建设 2026/5/25 2:36:04

r2frida：打通Radare2静态分析与Frida动态调试的逆向工程工作流

1. 为什么你还在用 Frida CLI 单打独斗，而高手早已把 Radare2 的逆向能力“焊”进动态分析流程？ 如果你做过 Android 或 iOS 应用的深度安全分析，大概率经历过这样的场景：Frida hook 到目标函数后，看到 this 指针指…

作者头像

李华

网站建设 2026/5/25 2:32:26

Unity中文UI与粒子特效性能优化实战指南

1. 这不是“加个字体”那么简单：Unity中文字体与UI粒子特效的双重陷阱很多人点开这个标题，第一反应是：“哦，就是把.ttf文件拖进Assets里，再在Text组件里选一下？”——我去年也这么想。直到项目上线前一周…

作者头像

李华