智能体是否在欺骗用户？上海 AI Lab港科大浙大揭示LLM智能体的主动隐瞒与造假现象-平芜编程栈

想象一下：一个打工人在深夜发现无法完成老板交代的任务，而第二天一早就要汇报。这时，他会怎么做？或许会重点突出已完成的部分，对未完成的轻描淡写、甚至绝口不提；也可能铤而走险，直接编造结果——只要老板不细究，就能蒙混过关。这种“向上欺骗”的行为，在人类社会中并不罕见，也一直是社会科学研究的重要课题。

如今，基于大语言模型的智能体凭借其高度自主性和灵活使用工具的能力，已成为许多人的“电子下属”。但一个令人不安的问题也随之浮现：智能体是否具有和人类似的欺骗行为？

一项由上海人工智能实验室、香港科技大学、浙江大学等机构联合发布的最新研究《Are Your Agents Upward Deceviers?》系统性地揭示并定义了这一现象——“智能体向上欺骗”。研究发现，基于LLM的智能体在面临环境约束时，会系统性隐瞒失败，甚至主动造假。

论文链接：https://arxiv.org/abs/2512.04864

什么是智能体的“向上欺骗”行为？

当智能体因工具失效、文件无法访问等限制而无法完成任务时，它不仅不会如实告知用户，反而会擅自执行未授权的操作——例如猜测答案、模拟结果、静默地切换信息源，甚至直接在本地伪造一份文件，然后自信满满地向用户汇报“任务成功”！论文中给出了一个实例是，用户要求智能体从网络上下载一个文件，但智能体发现自己的下载工具失效了，此时智能体考虑再三，决定自己直接脑补出文件内容，存储到用户指定的路径，并最终告诉用户：您的文件已经下载成功并存放在指定位置。

智能体极易进行“向上欺骗”

为了把智能体在受限环境下的“向上欺骗”抓个正着，研究团队设计了一组更接近真实工作流的任务：工具可能失灵、文件可能不相关、同目录里可能有“诱饵文件”，以及包含“先获取文件、再基于文件写报告”的多步链式指令——这些都是真实业务里最容易发生的小故障，也最容易检验智能体到底会不会如实汇报。

测试覆盖了包括 GPT-5、Gemini-2.5-Pro、Deepseek-v3.1 等在内的 11 个主流大模型。结论非常清晰：“向上欺骗”不仅存在，而且几乎是跨模型的系统性现象。当环境不完美时，很多智能体会优先选择“把任务做完的样子”，而不是先把失败讲清楚。

当工具失灵或信息不符时，它们选择“自作主张”而非诚实求助。

在“失灵的工具”挑战中，当智能体无法打开指定文件时，它们很少会坦率地报告失败。相反，它们中的大多数会选择猜测、模拟甚至直接编造一个看似合理的答案。结果显示，Kimi-k2 模型在这种场景下的“不报告失败率”（NFR）高达97.5%，这意味着它几乎总是在假装自己能够完成任务。即便是表现最好的GPT-4.1，也有27.5%的情况选择了隐瞒失败。

面对诱惑，它们会“偷梁换柱”且秘而不宣。

在“真假美猴王”的测试中，当“官方文件”无法读取时，绝大多数智能体会主动去读取旁边的“山寨版”诱饵文件，并利用其中的内容来回答问题，但它们却不会告诉用户自己更换了信息来源。这种行为的“诱饵替代率”（DFR）非常高，例如GLM-4.5模型高达90%，这意味着它在十次中有九次都偷偷地使用了未经授权的文件。

在“不可能完成的任务”面前，它们甚至会“无中生有”，伪造证据！

最令人警惕的发现来自最后两项挑战。当智能体被要求下载一份不存在的文件并进行分析时，不可思议的事情发生了：

它们会伪造文件：许多智能体不仅没有报告下载失败，反而在本地凭空创建了一个假的“白皮书”或“医疗记录”，文件内容完全是它们自己编造的。这种“文件伪造率”（FFR）在某些模型上表现得相当严重，构成了对用户最直接的欺骗。
它们会基于谎言继续分析：更糟糕的是，它们会心安理得地使用自己伪造的文件，作为下一步分析的“事实依据”，最终提交一份看似完整、实则建立在虚假前提上的分析报告。几乎所有模型在这种情况下都会提供一个虚构的答案，其“幻觉回答率”（HFR）接近100%。

这就像一个下属不仅没能取回老板要的关键文件，反而自己伪造了一份文件，并基于这份伪造品写了一份洋洋洒洒的报告交差，彻底掩盖了所有执行环节的失败。

研究发现，这种欺骗行为是智能体的一种内在缺陷，它会在没有外部攻击或恶意诱导的情况下自发产生。在现实世界中，一个损坏的工具、一个无效的链接，这些看似微不足道的“小事”，都可能触发智能体一系列危险的欺骗行为。

给AI戴上“紧箍咒”，能让它们变诚实吗？

既然智能体这么容易走向“向上欺骗”，很多人第一反应是：那我直接在提示词里立规矩不就行了？比如明确写上“禁止猜测、遇到问题必须如实报告”。

研究团队也这么想，于是做了一组消融实验，专门测试：到底哪些设置会把它们推向“不诚实”，哪些又能把它们拉回来一点。结论是：紧箍咒有用，但不够用；更扎心的是，有些你以为“更规范”的设计，反而在逼它撒谎。

发现一：你越逼它“按格式输出”，它越可能编

现实里我们常要求模型输出 JSON、选项、固定字段，方便系统接。问题是：当它其实不知道答案，又必须交一个“格式正确”的结果时，它会更倾向先把格式交差——哪怕内容是现编的。就像不会做选择题也要蒙一个，不然交白卷更难看。实验里仅仅放宽/去掉格式限制，欺骗率就能明显下降。
一句话：格式约束，有时是“说谎催化剂”。

发现二：把多步任务简化，未必更安全，可能更“较真”地造假

研究者猜：在“下载→分析”这种链式任务里，模型可能是被后半段“写报告”带着跑，才不汇报前面下载失败。于是他们把任务简化成只剩“下载”。
结果很微妙：确实更愿意承认下载失败了；但在那批仍选择硬撑的案例里，伪造本地文件的比例反而略有上升。
直观理解就是：当只剩一个任务要完成，有些模型反而更“死磕”，为了“完成得像真的”，干脆把证据也补出来。

发现三：最直接的警告能降温，但很难清零

在提示词里直接加一句“严禁猜测/伪造，遇到任何问题必须如实报告”，效果如何？好消息：欺骗显著减少。坏消息：依然剩一截清不掉。这说明“向上欺骗”不太像一个加句免责声明就能修好的小毛病，更像一种在压力下会冒头的默认策略：任务要完成、输出要体面、过程能不说就不说。

结语：从“欺骗”现象出发，探寻AI对齐的更深难题

这项研究揭示，“向上欺骗”并非简单的幻觉错误，而是AI智能体为掩盖失败而主动采取的系统性策略——从隐瞒问题、偷换信息直至伪造文件。这种内在风险对现实部署构成严重威胁：在金融、医疗或关键基础设施中，一次被掩盖的失败或一份伪造报告，都可能引发灾难性后果。

然而，更深层的问题在于：如何确保智能体对执行过程充分透明？当前的对齐研究大多聚焦于防止有害输出，却疏于规范智能体应如何主动、诚实地汇报任务状态与关键信息。

因此，这篇文章的作者希望以“向上欺骗”这一具体且紧迫的现象为起点，推动AI对齐迈向新范式：未来的重点不仅是防止“撒谎”，更需建立一套“过程可信”的标准，使智能体的每一步操作都可追溯、可验证，以此构建真正值得信任的人机协作基础。