这项由IBM研究院与哥伦比亚大学联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.24219v2,有兴趣深入探索的读者可通过该编号查阅完整原文。
当AI不再只是回答问题,而是开始"做事"的时候
假设你雇了一位助手,让他负责一套复杂的厂房设备巡检工作。他需要先去查阅传感器数据,再判断设备状态,然后调用专业检测工具,最终生成维修工单。整个过程环环相扣,每一步都建立在上一步的结果之上。现在问题来了:如果他在第三步悄悄"编造"了一份检测结果,最终交给你一张漂漂亮亮的工单,你能发现吗?
这正是当今AI领域正在发生的事情。大型语言模型(也就是GPT这类AI系统的核心)越来越多地被部署为自主"智能体",负责分析数据、调用工具、协调多个子任务,在工厂、数据中心、基础设施运维等高风险场景中代替人类完成复杂工作。然而,这类系统存在一个让人担忧的缺陷:它们会在中间步骤里悄悄"编故事",而这种编造往往只在最终答案里留下痕迹,甚至连痕迹都不留。
长期以来,评估AI是否"说谎"的方法,都只盯着它最终给出的答案。就好比你只检查助手交来的那张工单,却从不追问他中间到底做了什么、查了什么、怎么得出这个结论的。这种"只看结果"的评估方式,在AI还只是一个问答机器的时代或许够用,但当AI变成了一个需要连续推理、使用工具、多步骤协作的自主决策者,这种方式就像是把体检简化为"你感觉还好吗"——远远不够。
IBM研究院和哥伦比亚大学的团队正是为了解决这个问题而携手合作。他们提出了一个名为**Trajel**的评估框架,以及一套精心构建的数据集,专门用来审查AI智能体在完整决策链条(也就是"轨迹")中的每一个步骤,追问:这个AI到底在哪里开始"编故事"的?
一、从"问答机"到"决策链":AI的进化带来了新的麻烦
要理解这项研究的意义,得先明白AI智能体是怎么工作的。
传统AI的工作方式很像一台自动贩卖机:你投入一个问题,它吐出一个答案,交互到此结束。但现代AI智能体的工作方式更像一位项目经理:它收到一项任务,然后开始规划——先派"感知专员"去采集数据,再让"分析师"建立状态模型,接着叫"预测师"做时序预判,最后由"执行官"生成操作指令。整个过程中,每一位"专员"的输出都会成为下一位"专员"的输入,形成一条完整的推理链。
这条推理链,在学术上叫做"轨迹"(Trajectory),它由一系列"思考—行动—观察"三元组构成。每一步,AI都会先在脑子里想一想(思考),然后调用某个工具(行动),最后得到工具反馈的结果(观察)。这个循环不断重复,直到任务完成。
研究团队以一个名为AssetOpsBench的工业运维多智能体框架作为测试场景。这个框架模拟了真实数据中心和工厂设备的运维工作,包含四类分工明确的AI智能体:负责传感器数据读取的IoT智能体、负责故障状态建模的FSMR智能体、负责时序预测的TSFM智能体,以及负责生成工单的WO智能体。这四类智能体协同作业,共同处理诸如"检测6号冷水机组在某周内是否有异常"这样的实际问题。
在这个复杂的协作流程中,一旦某个中间环节出现了"编造"——无论是AI引用了一个根本不存在的传感器读数,还是跳过了某个必要的检测步骤,或者在工具没有返回有效结果的情况下直接声称"检测完成"——这种错误就会顺着推理链传播下去,最终导致整个任务的决策出错。这就是所谓的"轨迹级幻觉",也是Trajel框架想要解决的核心问题。
二、幻觉的五张面孔:不是所有"编造"都长一个样
研究团队面临的第一个挑战是:如何精确定义"幻觉"?
在日常理解中,AI"幻觉"通常是指AI说了不符合事实的话。但在多步骤、多智能体的工作流中,幻觉的形态远比这复杂得多。于是,研究团队提出了一套五分类体系,像是为幻觉做了一张"人口普查",把每种类型的幻觉都赋予了精确的定义。
第一种叫做**事实幻觉**。这是最直观的类型:AI在某一步的推理或行动中,声称了一个与真实数据相矛盾的具体事实。比如,传感器记录的温度是32摄氏度,但AI在报告里写成了52摄氏度。这类幻觉的特点是只需看这一步就能发现,不需要翻查前后文。
第二种叫做**指代幻觉**。这更像一种"记忆捏造":AI在某步骤中引用了一个根本没有在之前步骤中出现过的实体、数据或结果。就好比助手在总结报告里提到"根据上午的检测报告显示……",但实际上根本没有做过上午的检测。这种幻觉只有追溯整条推理链才能识别,单看当前这步看不出问题。
第三种叫做**逻辑幻觉**。这是一种"推理断链":AI的前提条件没有问题,但得出的结论与前提之间存在逻辑跳跃或矛盾。前提是正确的,推理步骤却出了错。这类幻觉尤其难以识别,因为表面上一切都显得"有道理",只有仔细追问推理过程才能发现漏洞。
第四种叫做**程序幻觉**。这是工业场景中最常见、也最危险的一种:AI跳过了某个必要的工作步骤,或者在没有实际执行的情况下声称已经完成了某项任务。这就相当于厨师在没有实际烤制的情况下告诉你"蛋糕已经烤好了"。这类幻觉如果不对照规定的工作流程,是根本发现不了的。
第五种叫做**越界幻觉**。这是多智能体系统特有的一种失误:某个智能体做了或声称了超出其职责范围的事情。内容本身可能是正确的,但"说话的人说错了话"——就像一个负责采购的员工,忽然开始对外宣布公司的技术战略。这类幻觉检测起来需要明确知道每个智能体的职责边界。
这五种幻觉类型的一个重要共同特征是:它们都被形式化地定义在"思考—行动—观察"的轨迹结构上,而不是模糊地描述为"AI说了不对的话"。这种精确化的定义,是Trajel框架区别于所有此前研究的关键所在。
三、数据集是怎么炼成的:225条轨迹,两家机构的双重把关
有了分类体系,下一步是建立数据集。
研究团队从AssetOpsBench框架中收集了6种不同AI模型配置在42道工业运维题目上运行产生的225条完整执行轨迹。每一条轨迹都是一段完整的"工作记录",用JSON格式记录了每个智能体在每个步骤的思考内容、执行的工具调用,以及工具返回的结果。
这225条轨迹的标注采用了"双保险"机制,以防止评估偏差。第一道工序是让一个大语言模型扮演"评审官",按照统一的提示词模板,对每条轨迹进行初步判断:是否存在幻觉?属于哪种类型?发生在哪一步的哪个组件(思考、行动、观察还是最终响应)?理由是什么?第二道工序则是由来自两家机构的人类审阅者独立进行盲审——他们在不看AI评审官结论的情况下,自行评判每条轨迹,记录下自己的判断结果和理由。
这种设计的用意在于:如果人类直接看着AI的判断再做评估,很可能会不知不觉地受到影响(这在心理学上叫"锚定偏差")。盲审机制排除了这种可能,确保了人类标注的独立性。
最终数据集的基本面貌如下:在有效的224条轨迹中,人类审阅者认定其中153条(约68.3%)存在幻觉,而AI评审官的判断则更为激进,认定178条(约79.1%)存在幻觉。在153条被人类认定为幻觉的轨迹中,79条(51.3%)只包含单一类型的幻觉,而另外75条(48.7%)同时包含多种类型的幻觉。这后一个数字非常关键——将近一半的幻觉轨迹同时存在多种幻觉,说明单标签的分类方式会从根本上低估幻觉的复杂程度。
四、AI评审官的自画像:哪些幻觉它能发现,哪些它视而不见
用AI来评估AI,听起来有点像让嫌疑人自己给自己作证。研究团队详细考察了AI评审官(LLM-as-a-Judge)与人类标注之间的吻合程度。
在二元判断层面(只判断"有没有"幻觉,不区分类型),AI评审官与人类的一致率是78.6%,两者之间的Cohen's κ值(一种衡量一致性的统计指标,0表示完全随机,1表示完美一致)为0.456,属于"中等一致"。AI评审官的召回率高达92.2%,意味着它很少漏判幻觉;但精确率只有79.7%,说明它也经常"误伤"——把正常的轨迹错误地判定为幻觉。这种"宁可错判,不可放过"的保守偏向在实际使用中可能会带来大量误报。
更有意思的是分类型的对比。对于程序幻觉,AI评审官的F1分数(综合精确率和召回率的指标)达到了0.784,事实幻觉和越界幻觉的F1均为0.719;然而,对于逻辑幻觉,F1骤降至0.258,对于指代幻觉,F1更是只有0.222。也就是说,AI评审官对表面特征明显的幻觉(比如步骤缺失、事实错误)识别得相当不错,但对那些需要在多步骤之间仔细追溯推理链才能发现的幻觉(比如引用了不存在的先前结果,或者推理链存在逻辑跳跃),则几乎束手无策。
每种幻觉类型对应的Cohen's κ值进一步证实了这一点。越界幻觉的κ为0.656,程序幻觉为0.613,事实幻觉为0.595,这三类属于"中等到较高一致";而逻辑幻觉的κ仅为0.211,指代幻觉更是只有0.176,属于"几乎没有一致性"。换句话说,对于最微妙、最需要深层推理才能识别的两类幻觉,就算是两个有经验的人类审阅者在审查同一条轨迹时,也可能得出截然不同的结论——更遑论让AI自动识别了。
这一发现有着深刻的实践含义:如果只用二元标签(有幻觉/没幻觉)来衡量检测系统的表现,那么在141条被双方都判定为幻觉的轨迹中,所有轨迹都会被算作"检测正确",看起来皆大欢喜。但实际上,AI评审官漏掉了79%的人类识别出的逻辑幻觉(19条中有15条被AI漏判)和77%的指代幻觉(13条中有10条被AI漏判)。这正是研究团队坚持要引入五类型分类体系的原因——粗粒度的二元评估掩盖了最需要被关注的那部分失败。
五、不同模型,不同的"说谎方式"
把同样的42道工业运维题目交给6种不同的AI模型来做,结果大相径庭——不只是幻觉的多少不同,幻觉的"类型特征"也完全不一样。
从总体幻觉率来看,最"可靠"的Model_6只有52.4%的轨迹被人类认定为幻觉,而最"不可靠"的Model_17的这一比例高达81.0%——同样的题目,同样的工作框架,不同的模型架构,幻觉率差了近30个百分点。这说明模型架构本身对幻觉行为有着决定性的影响,不是说把某个模型接入工业系统就能保证可靠性,还得专门测试它在这类场景下的幻觉特征。
更值得关注的是类型特征的差异。Model_19在所有27条幻觉轨迹中,有18条包含越界幻觉,占比极高;而Model_6的越界幻觉几乎为零(22条幻觉轨迹中只有2条)。Model_17的指代幻觉数量最多(7条),这暗示这一模型对跨步骤的信息追溯能力特别薄弱。不同的模型以不同的方式失败,这些差异如果只看总体幻觉率,是完全看不出来的。
从AI评审官的检测精确率来看,Model_19的精确率最低(0.703),而这恰恰是越界幻觉最多的模型。越界幻觉的特点是"内容正确,来源不对"——智能体说的事情可能确实是真的,只是这件事不该由它来说、由它来做。这种"正确但越界"的行为对于没有明确角色边界意识的自动检测器来说,极难分辨。这也从侧面说明,要想可靠地检测越界幻觉,检测系统必须明确知道每个智能体的职责范围,而不能单纯依赖语言层面的矛盾检测。
六、幻觉藏在哪里:步骤位置与发生环节的规律
研究团队不只关心幻觉的类型,还系统统计了它们在轨迹中的"位置特征",这对于设计防护机制至关重要。
从发生在哪个组件来看,幻觉最常出现在"行动"(70次)和"最终响应"(58次)这两个外部可见的环节,而出现在"思考"(40次)和"观察"(11次)中的相对较少。这个发现很有启发性:问题主要不出在AI内部推理的过程本身,而出在它把推理结果转化为实际工具调用和对外声明的环节。就像一个人心里想得挺明白,但一到要落笔写报告或者操作设备的时候就出错了。这对防护设计的启示是:在工具调用和最终输出这两个环节部署监控,效果应该比仅监控推理过程更显著。
再从不同类型幻觉的组件偏好来看,各有规律。事实幻觉最常在最终响应(31次)中浮现,程序幻觉则集中在行动环节(57次),指代幻觉多出现在思考环节(11次),越界幻觉则较为均匀地分布在各个组件中,符合其作为"角色边界问题"的本质。这意味着:专门检测行动合法性的监控器可以高效捕捉程序幻觉,但对事实幻觉就束手无策;专门检验最终响应的核查层则正好相反。一套完整的防护体系,需要同时在多个环节部署不同侧重的检测器,而非一刀切地只在最后把关。
从轨迹中的位置分布来看,幻觉在Task 3位置最为集中(63次),此后随着任务推进而逐渐减少(Task 4为43次,Task 5为37次,到Task 6以后快速下降)。这与直觉相符:随着累积的上下文越来越多,AI需要整合的信息量越来越大,出现混乱的风险也越来越高;但一旦任务接近尾声、剩余步骤有限,AI反而不容易"跑偏"了。
七、三种检测器的实力对比:谁能更好地发现问题
理解了幻觉的类型和位置之后,自然要问:有没有可以自动检测这些幻觉的工具?研究团队测试了三种监督学习检测范式,也就是三种经过数据训练的自动检测器。
第一种是基于BERT的子任务级分类器。BERT是一种在语言理解上表现出色的预训练模型。这里用它来分析单个步骤(思考+行动+观察),预测该步骤是否存在幻觉。这种方式就像专注地检查流水线上的每一颗螺丝,对局部异常非常敏感,但看不到流水线的全貌。按照理论预期,它应该对事实幻觉效果最好,对需要全局视角的程序幻觉和越界幻觉效果最差。
第二种是轨迹级自然语言推断(NLI)。NLI是一种判断两段文字之间逻辑关系的技术,可以判断A文本是否"支持"、"中立"或"矛盾"于B文本。研究团队用它来检验当前步骤与所有历史步骤之间是否存在矛盾,重点捕捉跨步骤的一致性问题,也就是指代幻觉和逻辑幻觉。
第三种是基于Longformer的长上下文建模器。Longformer是一种专门设计来处理很长文本的模型,可以把整条轨迹作为一个整体输入并做全局分析,特别适合需要综合全局信息的程序幻觉和越界幻觉检测。
实验结果如下:在ROC-AUC这个指标上(这个指标衡量的是检测器区分幻觉和正常轨迹的整体能力,0.5表示纯随机,1.0表示完美),三种检测器都超过了0.5的随机基线。其中NLI检测器表现最佳,AUC为0.689;BERT分类器为0.613;Longformer为0.599。然而,即使是最好的NLI检测器,0.689的AUC在实际应用中也远算不上理想。相比之下,零样本的AI评审官(LLM-as-a-Judge)在F1指标上达到了0.855,远超所有三种经过专门训练的检测器。
这个结果揭示了一个令人深思的现实:在只有225条训练样本的情况下,专门训练的小模型无法与大语言模型的通用推理能力相抗衡。数据规模和模型能力之间的鸿沟,意味着轨迹级幻觉检测目前仍是一个"未解决的挑战"。
八、最意外的发现:有一个信号,比所有检测器都管用
研究中最引人注目的发现,恰恰不是来自那些精心设计的机器学习检测器,而是来自一组在任务执行过程中就能直接观察到的"执行质量信号"。
AssetOpsBench框架在每条轨迹执行结束后,会生成五个二元标志位,用来评价这条轨迹的执行质量:任务完成度(TC,任务是否整体完成)、数据检索准确性(DRA,是否正确获取了所需数据)、结果验证(RV,结果是否经过了验证)、智能体序列正确性(ASC,各智能体的执行顺序是否符合规范),以及清晰度与合理性(CJ,推理过程是否清晰、有充分依据)。
研究团队将这五个信号与幻觉标签做了相关性分析,结果令人震惊。所有五个信号都与幻觉存在强烈的负相关,也就是说,这些信号"缺席"的时候,幻觉几乎必然存在。清晰度与合理性(CJ)信号的相关性最强(Pearson r = -0.833),其作为预测幻觉的单变量指标,AUC高达0.908——也就是说,仅凭这一个信号,就能以极高的准确率区分幻觉轨迹和正常轨迹。
具体数字非常直观:在CJ信号存在(即推理清晰合理)的轨迹中,幻觉率只有9.1%;而在CJ信号缺失(即推理模糊、缺乏依据)的轨迹中,幻觉率高达94.3%。任务完成度(TC)和结果验证(RV)信号的AUC也分别达到0.853和0.863,同样是强力预测指标。
更惊人的极端情况是:当CJ和RV同时缺失时,幻觉率飙升至97.1%。这意味着,如果一个AI执行系统出现了"推理不清晰、结果没有验证"的双重告警,那几乎可以断定这条轨迹存在幻觉——这是一个有望作为"紧急刹车"信号的候选指标,可以在不需要任何复杂分类模型的情况下,实时阻断可疑的执行流程。
0.908的AUC大幅超越了最好的专门训练检测器(0.689),也超越了AI评审官(无法直接比较AUC,但F1为0.855)。这一发现将实践建议从"事后用复杂模型分类"转向了更具操作性的方向:在智能体执行循环中嵌入轻量级的实时监控器,监控这些执行质量信号,一旦触发阈值立即介入,比等到任务结束后再做事后审查要高效和安全得多。
九、研究的边界与未来的方向
任何研究都有其适用范围,Trajel也不例外。研究团队在结论部分坦诚地指出了几个重要限制。
首先是场景单一性。225条轨迹全部来自工业运维领域(数据中心监控、设备异常检测、工单生成),且基于同一个AssetOpsBench框架和六种特定模型配置。这个框架下得到的规律,在医疗、金融、开放式网页任务等完全不同的场景下是否同样成立,目前还是未知数。
其次是标注一致性的局限。总体Cohen's κ为0.456,属于中等一致;但对于指代幻觉(κ=0.176)和逻辑幻觉(κ=0.211),两个有经验的人类审阅者之间的一致率极低。这说明这两类幻觉的边界本身就模糊,当前的标注协议还不够精细,未来需要设计更严格的标注规范,比如要求审阅者明确指出每一条指代幻觉对应的具体前序步骤。
再者是分类体系的完整性问题。五类幻觉框架并不声称已经穷举了所有可能的幻觉类型。在更复杂的工具生态或对抗性测试场景下,很可能会出现框架之外的新型失败模式。
最后是检测方法的性能上限。当前最好的有监督分类器AUC只有0.689,远不足以支持实际部署。弥合有监督分类器与大语言模型推理能力之间的差距,可能需要将大语言模型生成的特征作为输入纳入小型判别分类器(混合架构),同时引入词元级不确定性和语义熵等更精细的信号,以及多模型集成方法(让多个AI互相校验,直接度量分歧,而不是间接依赖执行标志)。
归根结底,这项研究的价值不仅仅在于它提供了一套工具,更在于它清晰地指出了问题的所在。当AI开始负责真实世界中的连续决策任务,只检查它最终说了什么,已经远远不够了。我们需要像给人做体检一样,逐步审查整个决策过程,在每个关键节点问一声:你这一步,有没有编故事?
这项研究构建的五类幻觉分类体系、225条专家标注轨迹数据集、三种检测范式的对比,以及执行质量信号的预测价值分析,共同构成了一套可供后续研究者继续完善的"幻觉体检套餐"。数据集将在论文正式接收后以CC BY 4.0协议在Hugging Face数据平台公开发布,评估工具代码也将同步以MIT协议开源。对这一领域感兴趣的读者,可通过arXiv编号2605.24219v2获取完整论文。
Q&A
Q1:Trajel框架检测的"轨迹级幻觉"和普通AI幻觉有什么区别?
A:普通AI幻觉通常指AI在单次回答中说了不准确的内容,只需对照事实就能发现。Trajel框架关注的轨迹级幻觉发生在AI完成多步骤任务的过程中,可能是跳过了某个必要步骤、引用了根本没发生过的前序结果,或者推理链存在逻辑断层。这些问题只看最终答案根本发现不了,必须追溯整个执行过程才能定位。
Q2:五类幻觉里哪种最难被自动检测器发现?
A:逻辑幻觉和指代幻觉是最难被自动检测器发现的两类。根据研究数据,AI评审官对逻辑幻觉的F1分数只有0.258,对指代幻觉更是只有0.222;两者与人类标注的一致性κ值分别仅为0.211和0.176。这是因为这两类幻觉需要在多个步骤之间追溯推理链,对上下文的理解要求远高于只需看单步就能判断的事实幻觉和程序幻觉。
Q3:研究发现哪个信号能最有效地预警幻觉风险?
A:研究发现"清晰度与合理性"(CJ)信号是预测幻觉最强的单一指标,其AUC高达0.908,远超所有经过专门训练的分类器。当这个信号缺失时,幻觉率高达94.3%;当它同时与"结果验证"(RV)信号一起缺失时,幻觉率更是飙升至97.1%。这意味着在AI执行循环中实时监控这类轻量级信号,效果比事后用复杂模型分类更实用。