MemPrivacy：面向端云智能体的隐私保护个性化记忆管理框架-平芜编程栈

之前文章介绍过：89.2%攻击成功率！腾讯、字节研究发现 OpenClaw Agent 存在可利用结构性漏洞

今天介绍一个 MemPrivacy 项目，来自 MemTensor、荣耀和同济大学的联合团队。

他们的研究让云端智能体能正常"记住你"，但永远看不到你的真实数据。

效用损失控制在1.6%以内，性能大幅超过 GPT-5.2 和 Gemini-3.1-Pro。

问题起源

为了让智能体"了解你"，你需要把对话历史、偏好、上下文都存起来。
这些数据里，不可避免地夹杂着各种隐私信息。

之前的研究已经证实了几种针对记忆内容攻击路径：

1. 记忆检索泄露：攻击者通过精心构造的查询，诱使系统返回其他用户或同一用户的历史隐私数据。
2. 提示注入操控：攻击者在某个对话轮次中注入恶意指令，让智能体"主动回忆"并输出敏感信息。
3. 日志与存储暴露：云端日志、向量数据库、外部记忆存储中的明文数据，在后续的存储、检索和复用阶段持续可被访问。

直接打码（比如把身份证号变成***），保护了隐私，但也破坏了语义。

模型无法区分"这是身份证号"和"这是随便一串数字"。

如果使用差分隐私加噪声，则会模糊任务相关信息，个性化质量大幅下降。

如果用加密计算又太慢，跟交互式推理流式输出不兼容。

为了隐私，牺牲了智能。

策略对比

有没有折衷方案

MemPrivay 的策略：本地识别隐私，云端用占位符，本地再恢复。

这个方案的好处在于不破坏语义。

举个例子。你说"我的血压是160/110，帮我看看需不需要吃药"。

如果是模糊隐私的做法，会形成：我的 *** 是 ***，帮我看看需不需要吃药。

MemPrivacy：我的 <Health_Info_1> 是 <Health_Info_2>，帮我看看需不需要吃药。

大模型能理解：这是健康相关的数值，需要医学判断。但它不知道具体数值。

等返回"血压偏高，建议就医"之后，本地再把占位符替换回原始值。

用户看到的是："你的血压160/110偏高，建议就医"。

隐私值和语义角色被完全解耦。

框架概览

整个框架分三个阶段，形成一个闭环：

阶段1：上行脱敏。

用户在本地发消息，轻量级 MemPrivacy 模型先在设备上跑一遍，识别出所有隐私片段，给每个片段打上隐私级别和类型标签，然后替换成类型化占位符。比如 Email 类型的就用<Email_1>,<Email_2>。原始值和占位符的映射关系，安全存储在本地 SQLite 数据库里。

阶段2：云端处理。

脱敏后的文本发到云端，大模型正常做推理和记忆操作。因为有类型标签，模型知道这是Email、那是Health Info，语义理解不受影响。但云端永远看不到真实的邮箱地址和血压数值。

阶段3：下行恢复。

云端返回结果后，本地数据库查映射表，把占位符替换回原始值。整个过程只是数据库查询加字符串替换，延迟几乎不可感知。

这就是：架构级隐私隔离。

云端的任何组件，从推理引擎到向量数据库到日志系统，都没有你的原始隐私敏感数据。

四级隐私分类

MemPrivacy 引入了一套 PL1 到 PL4 的分类体系，允许用户根据场景灵活配置保护策略。

级别	含义	典型内容	推荐策略
PL1	低敏感/偏好类	"我喜欢科幻片"、说话语气、通用习惯	可以保留，用于个性化
PL2	可识别身份信息	真实姓名、手机号、邮箱、详细地址、账号ID	长期记忆中默认不允许
PL3	高敏感个人信息	健康记录、财务记录、精确定位、宗教信仰/族裔	禁止进入通用记忆
PL4	即时可利用的凭证	密码、OTP验证码、恢复码、API密钥、会话Token	零留存，必须阻断

PL2 对标的是主流数据保护法律对"个人数据"的定义：能否直接或间接识别到具体的人。
PL3 对标的是 GDPR 的特殊类别数据，判断标准是"泄露后是否会造成实质性伤害"。
PL4 则是一个更严格的定义：暴露后能否直接用于认证、授权或系统入侵。

PL4 把密码、恢复码、API密钥、会话Cookie这类跟普通隐私完全不是一个量级的威胁单独拎了出来。

窃取的会话Cookie可以直接重放访问已认证的服务，甚至能绕过部分多因素认证保护。
这类数据的暴露不需要"进一步利用"，本身就是最高级别的安全事件。

可以在代码里设定只保护 PL3 和 PL4，让 AI 正常使用你的姓名和邮箱来个性化服务。
也可以在企业场景设为 PL2-PL4 全部保护，一条个人信息都不给云端。

评测结果

论文在两个数据集上做了全面的对比实验：MemPrivacy-Bench（自建的200用户双语数据集，超过15.5万个隐私实例）和 PersonaMem-v2（外部个性化能力评估基准）。

隐私提取能力：

模型	MemPrivacy-Bench F1	PersonaMem-v2 F1	推理时间(秒)
GPT-5.2	68.99	88.06	4.62
Gemini-3.1-Pro	78.41	86.59	32.87
DeepSeek-V3.2-Think	75.04	92.18	96.14
OpenAI-Privacy-Filter	35.50	85.27	0.34
MemPrivacy-0.6B-SFT	83.09	92.08	1.96
MemPrivacy-4B-RL	85.97	94.48	2.05

亮点：

1. 最小的 MemPrivacy 0.6B 模型，F1 已经达到 83.09%，干掉了表格里所有通用大模型。包括 GPT-5.2 和 Gemini-3.1-Pro。
2. 最强的 MemPrivacy-4B-RL 比 Gemini-3.1-Pro 高出 7.56 个百分点，而且推理速度快了 15 倍（2秒 vs 33秒）。
3. OpenAI 在2026年4月刚开源的 Privacy-Filter，F1 只有 35.50%。不是它不行，而是 MemPrivacy 的任务是细粒度的类型级隐私分类 + 级别判定，远远超出了简单的 PII 检测。

研究团队还在 LangMem、Mem0、Memobase 三个主流记忆系统上做了测试：

场景	LangMem	Mem0	Memobase
无保护（理想上限）	65.37	68.62	38.62
传统打码 PL2-4	38.70 (-26.67)	26.75 (-41.87)	21.63 (-16.99)
MemPrivacy PL2-4	64.07 (-1.30)	67.89 (-0.73)	37.89 (-0.73)
MemPrivacy 仅PL4	65.28 (-0.09)	68.29 (-0.33)	38.54 (-0.08)

传统打码直接让准确率腰斩，在 Mem0 上从 68.62% 暴跌到 26.75%。
而 MemPrivacy 在最严格的 PL2-4 保护下，损失只有 0.73%-1.60%。
如果只保护 PL4 凭证类信息，损失可以忽略不计，不超过 0.89%

不同隐私问题比例下的准确率

随着测试中隐私相关问题比例升高，传统打码的性能急剧下降。
MemPrivacy 的曲线却保持平滑，几乎没有因为隐私密度增加而产生额外退化。

如何使用

GitHub 开源地址：

http://github.com/MemTensor/MemPrivacy。

模型发布在 HuggingFace 和 ModelScope，从 0.6B 到 4B 共 8 个变体，覆盖 SFT 和 RL 两种训练方式。

第一步：安装

git clone https://github.com/MemTensor/MemPrivacy.git cd MemPrivacy python -m venv .venv source .venv/bin/activate pip install -r requirements.txt

第二步：配置

需要配置两个 YAML 文件。

src/privacy_config.yaml用于框架本身：

llm: base_url: "你的LLM服务地址" api_key: "你的API密钥" privacy: db_path: "local_privacy_store.sqlite" # 本地映射数据库 mask_levels: ["PL3", "PL4"] # 只保护高敏感内容

evaluation/eval_config.yaml用于跑评估基准（可选）。

第三步：核心代码

嵌入隐私保护层：

from src.privacy_masking import PrivacyStore, mask_dialogue, unmask_dialogue # 初始化本地隐私映射存储 store = PrivacyStore(db_path="local_privacy_store.sqlite") # 假定的隐私检测结果（由 MemPrivacy 模型在本地生成） detected_privacy_items = [ {"text": "13812345678", "type": "Phone", "level": "PL2"}, {"text": "160/110", "type": "Health_Info", "level": "PL3"}, {"text": "RC-7291", "type": "Recovery_Code", "level": "PL4"}, ] # 上行：脱敏 user_text = "我的手机是13812345678，血压160/110，恢复码是RC-7291" masked_text, meta = mask_dialogue( text=user_text, privacy_items=detected_privacy_items, store=store, mode="type_specific", # 类型化占位符：<Phone_1>, <Health_Info_1> ) # masked_text: "我的手机是<Phone_1>，血压<Health_Info_1>，恢复码是<Recovery_Code_1>" # 这个 masked_text 发送到云端做推理和记忆操作 # 下行：恢复 cloud_response = "您提供的<Health_Info_1>偏高，建议就医。验证码<Recovery_Code_1>已过期。" restored = unmask_dialogue(cloud_response, store=store) # restored: "您提供的160/110偏高，建议就医。验证码RC-7291已过期。"

三种掩码模式：

1.type_specific：<Email_1>, <Phone_2>，保留完整语义类型，效用最高。
2.generic：<Privacy_1>, <Privacy_2>，只告诉模型"这里是隐私"，语义信号减弱。
3.complete：直接删除隐私片段，隐私保护最彻底但效用最低。

保护等级PL1-PL4可以任意设置：

# 只保护凭证类（PL4） mask_levels: ["PL4"] # 保护高敏感及以上（PL3 + PL4） mask_levels: ["PL3", "PL4"] # 全量保护（PL2 + PL3 + PL4） mask_levels: ["PL2", "PL3", "PL4"]

第四步：接入现有记忆系统

MemPrivacy 作为无侵入的"隐私代理层"，可以直接包裹在任何记忆系统外层。

以 Mem0 为例：

# 在每次向 Mem0 写入记忆前，先过 MemPrivacy def safe_memory_add(user_text, mem0_client, privacy_store): # 1. 本地隐私检测（调用 MemPrivacy 模型） detected = memprivacy_model.detect(user_text) # 2. 脱敏 safe_text, _ = mask_dialogue(user_text, detected, privacy_store) # 3. 云端写入脱敏后的内容 mem0_client.add(safe_text, user_id=user_id) # 同理，Mem0 检索和问答也走相同流程 def safe_memory_query(query, mem0_client, privacy_store): detected = memprivacy_model.detect(query) safe_query, _ = mask_dialogue(query, detected, privacy_store) result = mem0_client.search(safe_query, user_id=user_id) return unmask_dialogue(result, privacy_store)

不需要改记忆系统一行代码。
MemPrivacy 只在数据出入的时做编码&解码，完全无感接入。

最后

AI 智能体正在逐渐成为我们日常生活工作中离不开的伙伴。

这个过程就需要记住你的各种信息，才能更好的懂你，完成你交付的任务，但是同时会带来你的信息暴露给云端大模型的问题。

MemPrivacy 的解决方案是让你的隐私信息保留在本地/端侧，让云端大模型给你做推理，完成任务。

0.6B 模型在手机上就能跑，推理延迟不到1秒。

接入现有记忆系统不需要改造底层代码。

保护策略可以按 PL1 到 PL4 灵活配置。

非常合适构建一个带记忆功能的 AI 项目应用。

参考论文：MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

https://arxiv.org/abs/2605.09530

推荐阅读：

Anthropic 百万行代码库的官方最佳实践

Lazyweb 免费的 25.7 万截图库｜让 AI 写出好看的前端页面

Multica：让 AI 智能体变为你的员工

给 AI 装上真实浏览器：camofox-browser 实战

基于 DeepSeek 的编程智能体 TUI

ChatGPT 里的"哥布林（goblins）"是怎么来的？

不用一个违禁词让 Claude 说出炸药配方｜红队攻击实录

大模型黑箱揭秘：GPT、Claude、Gemini、Grok、Hermes 系统提示词全公开

jcode 深度解析：纯 Rust 打造，它凭什么号称「最强 Coding Agent」？

从73.7到89.5，HALO 智能体用"轨迹分析"实现了递归自我进化

Claude Code 写攻击脚本 OpenClaw 自动指挥｜900家公司3万密钥外泄

没人整理过的 DeepSeek 进化史：25篇论文里的技术蜕变

MemPrivacy：面向端云智能体的隐私保护个性化记忆管理框架

问题起源

有没有折衷方案

四级隐私分类

评测结果

如何使用

最后

如何为Windows 11 LTSC企业版快速安装微软商店：完整解决方案指南

别再乱设SCALE_SCH了！Vivado FFT IP核定点数精度与防溢出的实战配置指南

QMCFLAC2MP3终极指南：免费快速解锁QQ音乐格式限制

如何在5分钟内解锁B站大会员4K视频下载权限？

Fast-GitHub：3分钟解决GitHub下载慢的终极免费方案

终极免费城通网盘直连解析工具：告别下载限速的完整指南