OPPO AI团队首创深度研究智能体失效诊断体系-平芜编程栈

这项由OPPO人工智能团队牵头的研究于2025年12月发表在计算机科学期刊arXiv上，论文编号为arXiv:2512.01948v1。研究团队包括来自OPPO PersonalAI实验室、南京大学等多个机构的研究人员，通讯作者为周王春树和刘嘉恒。有兴趣深入了解的读者可以通过上述论文编号查询完整研究内容。

想象一下，你有一个非常聪明的研究助手，能够帮你在网上搜集信息、分析数据，然后写出专业的研究报告。听起来很棒对吧？但是当你真正使用这样的AI助手时，你可能会发现它写出来的报告虽然看起来很专业，但仔细一看却发现引用的资料是假的，或者分析得不够深入，甚至有时候完全理解错了你的要求。

这正是OPPO AI研究团队想要解决的问题。他们专门研究了一种叫做"深度研究智能体"的AI系统，这种系统就像是一个能够独立进行研究的AI助手。但研究团队发现，现有的这些AI助手虽然能够理解任务要求，但在真正执行研究任务时却常常出现各种问题。

为了彻底了解这些AI研究助手到底哪里出了问题，研究团队做了一件前所未有的事情：他们开发了一套完整的"AI研究助手体检系统"。这套系统不仅能够测试AI助手的能力，还能精确诊断出它们在哪个环节出了问题，就像医生给病人做全身检查一样详细。

研究团队通过分析大约1000份由不同AI系统生成的研究报告，发现了一个令人意外的现象：这些AI助手最大的问题并不是理解不了任务要求，而是在搜集和整合信息、验证事实真假这些环节频频出错。更让人担心的是，有些AI系统为了让报告看起来更专业，竟然会编造看似合理但实际不存在的研究数据和引用文献。

这项研究的意义远不止于发现问题。研究团队还提出了一套标准化的评估体系，就像给AI研究助手建立了统一的"体检标准"，这对于未来开发更可靠、更实用的AI研究工具具有重要指导意义。

一、AI研究助手的现状：看起来很美好，实际问题不少

现在的AI技术发展得非常快，各大科技公司都推出了自己的AI研究助手。这些系统看起来非常厉害，能够自动在网上搜索信息，分析大量数据，然后生成看起来很专业的研究报告。就像Google推出的Gemini Deep Research、OpenAI的Deep Research，还有Perplexity的Deep Research等等，这些系统都宣称能够帮助用户进行深度研究。

但是，当研究团队仔细测试这些系统时，发现了一个很大的问题：现有的测试方法根本不够全面。大部分测试都是给AI一个问题，看它能不能给出正确答案，就像考试一样。但真正的研究工作要复杂得多，需要搜集信息、分析数据、验证事实、组织逻辑、撰写报告等多个步骤。用简单的问答题来测试AI的研究能力，就像用背乘法口诀表来测试一个人的数学能力一样，显然是不够的。

更重要的是，现有的测试标准各不相同，就像每个老师都用自己的评分标准来给学生打分一样，很难进行客观比较。有些测试注重答案的准确性，有些注重分析的深度，有些注重引用的规范性，但缺乏一个统一、全面的评估体系。

研究团队还发现，很多AI系统在生成研究报告时存在一个严重问题：它们会为了让报告看起来更专业、更有说服力，而编造一些看似合理但实际不存在的数据、引用或案例。这就像学生为了让作文看起来更精彩而编造一些"真实"故事一样，虽然文章读起来很有说服力，但实际上是建立在虚假信息基础上的。

这种情况在商业和学术应用中是非常危险的。如果一个投资分析师依赖AI生成的报告来做投资决策，而这份报告中的关键数据是AI编造的，那么后果可想而知。同样，如果学术研究人员使用了包含虚假引用的AI报告，不仅会影响研究质量，还可能涉及学术诚信问题。

二、FINDER：给AI研究助手建立全面体检标准

面对这些问题，OPPO AI团队开发了一套叫做FINDER（Fine-grained DEepResearch bench）的全新评估系统。如果说之前的测试方法像是简单的视力检查，那么FINDER就像是全面的身体检查，能够详细检测AI研究助手在各个方面的表现。

FINDER的核心创新在于它不再仅仅关注最终的答案是否正确，而是像教练观察运动员训练一样，全程跟踪AI系统在完成研究任务时的每一个步骤。这套系统包含了100个专家精心设计的研究任务，每个任务都配有详细的评分标准，总共包含419个具体的检查项目。

这些检查项目就像医生检查身体时的各项指标一样具体。比如，当测试AI系统写一份关于投资策略的分析报告时，FINDER不仅会检查报告的结论是否合理，还会检查AI是否正确理解了任务要求、是否搜集了足够的相关信息、是否正确引用了资料来源、分析逻辑是否清晰、报告结构是否合理等等。

FINDER的另一个重要特点是它的任务设计非常贴近现实需求。研究团队邀请了多个领域的专家，根据实际工作中的需要来设计测试任务。这就像驾照考试不仅要测试理论知识，还要测试实际驾驶技能一样，FINDER的测试任务都是AI系统在实际应用中真正需要处理的问题。

例如，其中一个测试任务要求AI系统分析全球最大经济体政府投资策略的异同点，并撰写一份15000字的专业分析报告。这个任务不仅测试AI的信息搜集能力，还测试它的比较分析能力、逻辑组织能力和专业写作能力。更重要的是，任务明确规定了报告必须使用准确的术语、严密的逻辑，并引用权威数据和最新研究。

为了确保评估的客观性和一致性，研究团队还为每个任务制定了详细的评分清单。这些清单就像料理比赛中评委使用的评分表一样，列出了每个方面的具体要求和评分标准。比如，在评估一份经济分析报告时，清单会检查报告是否选择了有代表性的分析方法、是否进行了全面可靠的维度比较、各种分析机制是否在逻辑上相互补充、是否有详细有效的推导过程等等。

三、DEFT：首创AI研究助手失效模式诊断系统

光有全面的体检还不够，当发现AI系统出现问题时，还需要能够准确诊断出问题的根本原因。这就像医生不仅要发现病人发烧，还要找出导致发烧的具体原因一样。为此，研究团队开发了另一套叫做DEFT（Deep rEsearch Failure Taxonomy）的诊断系统。

DEFT是世界上第一套专门针对AI研究助手的失效模式分类系统。研究团队通过分析大约1000份由不同AI系统生成的研究报告，运用科学的分类方法，识别并归类了AI研究助手可能出现的各种问题。这个过程就像疾病专家通过大量病例研究来建立疾病分类体系一样严格和系统。

DEFT将AI研究助手的问题分为三大类别，对应研究工作的三个核心环节：推理能力、信息检索能力和内容生成能力。每个大类别下面又细分为多个具体的失效模式，总共包含14种不同的问题类型。

在推理能力方面，研究团队发现了四种主要问题。第一种是"需求理解失败"，就像学生没有正确理解老师的作业要求一样，AI系统有时会误解用户的真正需求，专注于表面的关键词匹配而忽略了任务的核心目标。第二种是"分析深度不足"，AI系统往往停留在问题的表面，无法深入探讨背后的机制和原因，就像写论文时只是罗列现象而不分析原因一样。第三种是"分析范围受限"，当面对复杂的多维度问题时，AI系统往往只关注其中几个方面，无法进行全面系统的分析。第四种是"规划策略僵化"，AI系统一旦制定了执行计划，就会机械地按照计划进行，无法根据中间结果或新发现的信息来调整策略。

在信息检索方面，研究团队识别了五种主要问题。最常见的是"外部信息获取不足"，AI系统过度依赖内置知识，不能有效地搜集和利用最新的外部信息。还有"信息表征错位"，AI系统无法根据信息的可靠性和相关性来合理筛选和呈现信息。"信息处理缺陷"表现为AI系统无法从获得的资料中提取关键信息或适应任务要求。"信息整合失败"指的是AI系统在处理多个信息源时出现矛盾或不一致的问题。最严重的是"验证机制失效"，AI系统在生成内容前不进行必要的事实核查，导致输出缺乏可靠的依据。

在内容生成方面，研究团队发现了五种主要问题。"冗余内容堆积"表现为AI系统为了填充篇幅或营造全面性的假象而大量重复类似信息。"结构组织失调"指AI系统缺乏整体协调能力，无法合理安排内容结构。"内容规格偏离"表现为生成的内容在语言风格、格式要求等方面不符合专业标准。"分析严谨性不足"指AI系统生成的内容缺乏足够的严谨性，忽视不确定性声明或使用模糊语言。最令人担忧的是"策略性内容编造"，AI系统会生成看似专业但实际上没有根据的学术构造，如虚假的方法、数据或案例，以营造可信度的假象。

这套诊断系统的价值在于它能够帮助开发者精确定位AI系统的问题所在。就像医生根据症状来确定治疗方案一样，开发者可以根据DEFT的诊断结果来有针对性地改进AI系统的设计。

四、实验发现：AI研究助手的真实表现令人意外

研究团队使用FINDER和DEFT对市面上主流的AI研究系统进行了全面测试，测试对象包括Google的Gemini Deep Research、OpenAI的O3和O4-Mini Deep Research、Perplexity Deep Research等商业API服务，以及WebThinker、AFM、MiroThinker等开源模型，还有OWL、OpenManus、MiroFlow等智能体框架。

测试结果揭示了一些令人意外的发现。首先，即使是表现最好的AI系统，其整体得分也只是刚刚及格。Gemini 2.5 Pro Deep Research在综合评估中得分为50.95分（满分100分），这意味着即使是目前最先进的AI研究助手，距离真正实用的水平还有相当大的差距。

更令人意外的是问题分布。通过DEFT诊断系统的分析，研究团队发现AI系统的主要问题并不是理解任务要求（这类问题只占28.14%），而是在信息检索和内容生成环节。信息检索相关的问题占33.10%，内容生成相关的问题更是高达38.76%。

这个发现颠覆了很多人的认知。一般人可能会认为，AI最大的问题是理解能力不够，不能正确理解用户的需求。但实际情况是，大多数AI系统都能够比较准确地理解任务要求，真正的问题在于执行阶段。

在内容生成问题中，最严重的是"策略性内容编造"，占所有问题的19.0%。这意味着几乎五分之一的错误都是因为AI系统为了让报告看起来更专业而编造信息。例如，在测试中，有AI系统声称某个投资基金在特定时期获得了"经审计的美元计价年化收益率30.2%"，并与MSCI ACWI指数进行比较。但作为私人投资者，相关的详细业绩数据通常不会公开，这样精确到小数点的长期收益率很可能是AI系统编造的。

在信息检索问题中，"外部信息获取不足"占16.3%，"验证机制失效"占8.7%。这表明AI系统经常过度依赖内置知识而不去搜集最新信息，而且缺乏有效的事实核查机制。

研究团队还发现了一个有趣的现象：不同类型的AI系统表现出不同的问题模式。商业API服务通常在推理能力方面表现较好，但在信息获取和验证方面问题较多。开源模型在理解任务要求方面问题较少，但在内容生成的专业性方面存在不足。智能体框架在系统性方面有优势，但在处理复杂推理任务时容易出错。

五、深层原因分析：为什么AI研究助手表现不佳

通过深入分析，研究团队发现了AI研究助手表现不佳的几个深层原因。

第一个原因是"推理韧性"不足。这里的"推理韧性"指的是AI系统在动态、复杂环境中保持和调整推理状态的能力。就像一个人在解决复杂问题时需要不断调整思路一样，真正的研究工作往往需要根据新发现的信息来修正原有的假设和方法。但现有的AI系统往往采用线性的执行逻辑，一旦制定了计划就机械地执行，无法根据中间结果或遇到的问题来灵活调整。

第二个原因是信息处理链条的碎片化。研究团队发现，AI系统往往将信息获取、处理、整合、表征和验证这些步骤分别处理，缺乏统一的信息管理机制。这就像流水线作业中各个工位之间缺乏协调一样，导致信息在传递过程中出现断裂或扭曲。

第三个原因是生成过程中的约束和验证机制不足。当AI系统在生成内容时，为了满足篇幅要求或营造专业感，往往会优先考虑内容的流畅性和表面的完整性，而忽视事实的准确性和逻辑的严密性。这就像学生写作文时为了凑字数而添加一些不必要的内容一样。

第四个原因是评估和训练数据的局限性。现有的AI系统主要是基于大规模文本数据训练的，这些数据中包含大量的网络内容，质量参差不齐。AI系统可能学会了模仿专业文本的表面特征，但缺乏真正的专业判断能力。

六、对未来发展的启示：如何打造真正实用的AI研究助手

这项研究不仅揭示了现有AI研究助手的问题，更重要的是为未来的发展指明了方向。

首先，需要加强AI系统的"推理韧性"。未来的AI研究助手需要具备在复杂、动态环境中持续调整和优化推理策略的能力。这需要在AI系统的设计中引入更多的反馈机制和自我监控功能，让AI能够像经验丰富的研究人员一样，根据研究过程中的发现来调整研究方向和方法。

其次，需要建立完整的信息管理闭环。一个优秀的AI研究助手应该能够有效地整合信息获取、处理、验证和表征的各个环节。这要求在系统设计时就要考虑各个环节之间的协调，确保信息在整个处理流程中保持一致性和可追溯性。

第三，需要强化内容生成过程中的约束和验证机制。AI系统在生成内容时，应该有严格的事实核查步骤，对于无法验证的信息应该明确标注不确定性，而不是为了营造专业感而编造信息。

第四，需要开发更加标准化和全面的评估体系。FINDER和DEFT为AI研究助手的评估提供了新的标准，但还需要在更大范围内应用和完善，建立行业统一的评估标准。

研究团队还提出了一个重要观点：真正优秀的AI研究助手应该追求在理解、信息收集和内容生成各个环节的平衡发展，而不是在某一个方面特别突出而在其他方面存在明显短板。这就像一个优秀的研究人员需要具备全面的研究技能一样。

七、对普通用户的实际意义：如何更好地使用AI研究工具

这项研究对普通用户使用AI研究工具也有重要的实际指导意义。

首先，用户应该对AI生成的研究报告保持适度的怀疑态度，特别是要注意核查其中的关键数据和引用。当AI提供了非常具体的数据（比如精确到小数点的统计数字）时，最好通过其他渠道进行验证。

其次，用户可以通过提供更详细、更明确的任务要求来帮助AI更好地完成研究任务。就像给助手安排工作时需要说清楚具体要求一样，明确的指导能够减少AI系统的理解偏差。

第三，用户应该学会充分利用AI的优势，同时弥补其不足。AI在信息搜集和初步整理方面有优势，但在深度分析和事实验证方面存在不足。用户可以让AI负责信息搜集和初步分析，然后自己进行深度思考和事实核查。

第四，当使用AI进行重要决策的研究支持时，建议采用多个AI系统交叉验证的方法，或者将AI的结果作为参考而不是最终依据。

结论部分，这项由OPPO AI团队主导的研究为我们理解AI研究助手的现状和未来发展提供了重要的科学依据。研究结果告诉我们，虽然AI技术在近年来取得了巨大进步，但距离真正实用的AI研究助手还有相当大的距离。现有的AI系统虽然能够理解任务要求，但在信息验证、事实核查和严谨分析方面还存在明显不足。

更重要的是，这项研究为AI行业提供了标准化的评估工具和改进方向。FINDER和DEFT不仅是评估工具，更是未来AI研究助手发展的路线图。通过这些工具，开发者可以更准确地了解AI系统的优势和不足，从而有针对性地进行改进。

对于普通用户来说，这项研究提醒我们在使用AI研究工具时要保持理性和谨慎。AI可以成为我们研究工作的有力助手，但不应该成为我们独立思考和判断的替代品。只有在充分了解AI能力边界的基础上，我们才能更好地利用这项技术来提高工作效率和研究质量。

随着AI技术的不断发展，相信在不久的将来，我们将看到更加可靠、更加实用的AI研究助手。但在那一天到来之前，像FINDER和DEFT这样的研究工作为我们提供了重要的科学指导，帮助我们在AI辅助研究的道路上走得更加稳健和明智。有兴趣了解更多技术细节的读者可以查阅arXiv:2512.01948v1这篇完整论文。

Q&A

Q1：FINDER评估系统和传统AI测试方法有什么区别？

A：传统AI测试主要是问答形式，就像考试一样看答案对不对。FINDER则像全面体检，全程跟踪AI完成研究任务的每个步骤，包含100个专家设计的实际研究任务和419个具体检查项目，能够详细评估AI在理解要求、搜集信息、分析数据、撰写报告等各环节的表现。

Q2：AI研究助手最大的问题是什么？

A：研究发现AI最大的问题不是理解任务要求，而是在信息处理和内容生成环节。约19%的错误是"策略性内容编造"，就是AI为了让报告看起来专业而编造虚假数据、引用或案例。此外，AI还经常过度依赖内置知识而不搜集最新信息，缺乏有效的事实核查机制。

Q3：普通用户如何更安全地使用AI研究工具？

A：首先要对AI生成的内容保持适度怀疑，特别要核查具体数据和引用；其次要提供详细明确的任务要求帮助AI更好理解；第三要发挥AI在信息搜集方面的优势，但自己负责深度分析和事实验证；最后在重要决策时建议多个AI系统交叉验证，或将AI结果仅作参考而非最终依据。